MTVR：视频中的多语言时刻检索

ACLJul, 2021

MTVR: Multilingual Moment Retrieval in Videos

Jie Lei, Tamara L. Berg, Mohit Bansal

TL;DR本文介绍了 mTVR，这是一个大规模的多语言视频瞬间检索数据集，包含来自 21.8K 个电视节目的 218K 英文和中文查询。同时，还介绍了 mXML 模型，通过编码器参数共享和语言邻域约束，学习和操作两种语言的数据。该模型在新收集的 MTVR 数据集上表现出色，超过强大的单语基线模型，同时使用较少的参数。

Abstract

We introduce mTVR, a large-scale multilingual video moment retrieval dataset, containing 218K English and Chinese queries from 21.8K TV show video clips. The dataset is collected by extending the popular TVR dataset (in English) with paired Chinese queries and subtitles. Compared to ex

multilingual video moment retrieval large-scale dataset mxml model encoder parameter sharing language neighborhood constraints

发现论文，激发创造

TVR: 视频字幕时刻检索大规模数据集

本研究介绍了一种新的多模式检索数据集，名为电视节目检索 (TVR)，它结合了视频和相关的字幕文本，其中包含 109K 个查询，每个查询与一个精确的时间窗口相关联，并且具有指示查询与视频或字幕相关性的查询类型标签。我们还提出了多模态时刻检索任务的一种新型跨模态时刻定位网络 (XML)，该模型采用了一种新颖的卷积起始和结束检测器 (ConvSE) 模型，具有更好的效率和性能。同时，我们还收集了描述 TVR 中各个标注时刻的相关信息，形成了一个新的多模式字幕数据集 TVC，两个数据集均可以公开获取。

Jan, 2020

MVMR: 对多个可靠视频池的评估自然语言视频定位偏见

近年来，多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索（MVMR）任务，用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法，并介绍了三个 MVMR 数据集。针对这个任务，我们还开发了一个强大的模型，即可靠的互补匹配网络（RMMN），该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明，与现有的 NLVL 模型相比，我们的模型在 MVMR 任务中表现出显著的性能优势。

Aug, 2023

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

多语种事件视频与对齐自然文本

构建了 MultiVENT 数据集，该数据集包括多语言、以事件为中心的视频，用于分析在线新闻视频的状态，并利用其构建强大、事实准确的模型，并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。

Jul, 2023

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

MDMMT：用于视频检索的多领域多模态 Transformer

通过对多个视频字幕数据集的正确组合，我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术，成果展示了在无微调的情况下，单一模型在两个数据集上实现了最先进的结果。

Mar, 2021

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为 BM-DETR 的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

VATEX：一个大规模、高质量、多语种的视频与语言研究数据集

我们提出了一个新的大规模多语言视频描述数据集 VATEX, 其中包含超过 41,250 个视频和 825,000 条英文和中文字幕，拥有超过 206,000 个英中平行翻译对。我们还基于 VATEX 引入了两项视频与语言研究任务：（1）多语言视频字幕生成，旨在使用紧凑的统一字幕模型以各种语言描述视频，（2）视频引导机器翻译，使用视频信息作为附加时空上下文将源语言描述翻译成目标语言。VATEX 数据集的广泛实验表明，该统一多语言模型不仅可以更高效地生成视频的英文和中文描述，而且可以提供比单语言模型更好的性能。此外，我们还证明，时空视频上下文可以有效地用于对齐源语言和目标语言，从而帮助机器翻译。最后，我们讨论了使用 VATEX 进行其他视频与语言研究的潜力。

Apr, 2019