利用用户评论提升视频文字检索

ECCVOct, 2022

VTC: Improving Video-Text Retrieval with User Comments

Laura Hanu, James Thewlis, Yuki M. Asano, Christian Rupprecht

TL;DR本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Abstract

multi-modal retrieval is an important problem for many applications, such as recommendation and search. Current benchmarks and even datasets are often manually constructed and consist of mostly clean samples where all modalities are well-correlated with the content. Thus, current

multi-modal retrieval video-text retrieval user comments representation learning datasets attention-based mechanism

发现论文，激发创造

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

一种特征空间多模态数据增强技术用于文本 - 视频检索

本文介绍了利用文本 - 视频检索方法，并结合数据增强技术及多模态数据的方法，对大规模公共数据集 EPIC-Kitchens-100 的测试性能进行提升，灵敏的处理方式能以自然语言查询进行相关视频的查找。

Aug, 2022

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

LiveChat: 从视听多模态环境生成视频评论

通过创建大规模的音视频多模式对话数据集，以促进直播评论技术的发展，我们还提出了一种能够生成与视频中的时空事件以及正在进行的多模式对话上下文相吻合的实时评论的新颖多模式生成模型。

Oct, 2023

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018

多模态方法在视频评论的细粒度情感分析中的应用

本研究提出了一种多模态方法，从视频评论中挖掘细粒度意见，并且无需时间注释，利用音频、视频和语言转录的特征来确定评论中讨论的物品方面以及情感倾向。我们在两个数据集中验证了该方法，并表明利用视频和音频模态能够提高性能，从而更好地理解视频评论。

May, 2020