TVR: 视频字幕时刻检索大规模数据集

ECCVJan, 2020

TVR: 视频字幕时刻检索大规模数据集

TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal

TL;DR本研究介绍了一种新的多模式检索数据集，名为电视节目检索 (TVR)，它结合了视频和相关的字幕文本，其中包含 109K 个查询，每个查询与一个精确的时间窗口相关联，并且具有指示查询与视频或字幕相关性的查询类型标签。我们还提出了多模态时刻检索任务的一种新型跨模态时刻定位网络 (XML)，该模型采用了一种新颖的卷积起始和结束检测器 (ConvSE) 模型，具有更好的效率和性能。同时，我们还收集了描述 TVR 中各个标注时刻的相关信息，形成了一个新的多模式字幕数据集 TVC，两个数据集均可以公开获取。

Abstract

We introduce tv show retrieval (TVR), a new multimodal retrieval dataset. TVR requires systems to understand both videos and their associated subtitle (dialogue) texts, making it more realistic. The dataset conta

tv show retrieval multimodal retrieval subtitle texts query types cross-modal moment localization

发现论文，激发创造

MTVR：视频中的多语言时刻检索

本文介绍了 mTVR，这是一个大规模的多语言视频瞬间检索数据集，包含来自 21.8K 个电视节目的 218K 英文和中文查询。同时，还介绍了 mXML 模型，通过编码器参数共享和语言邻域约束，学习和操作两种语言的数据。该模型在新收集的 MTVR 数据集上表现出色，超过强大的单语基线模型，同时使用较少的参数。

Jul, 2021

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

部分相关性视频检索

本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务，并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络，以同时学习剪辑尺度和帧尺度下的相似性，并在三个数据集上进行了全面的实验来证明该方法的可行性，还表明该方法可以用于改进视频语料库时刻检索。

Aug, 2022

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

CoVR：从网络视频字幕中学习组合视频检索

通过自动数据集创建方法，我们提出了一个可扩展的 Composed Image Retrieval（CoIR）任务，使用由视频标题对生成的三元组，扩展任务范围到 Composed Video Retrieval（CoVR）。通过在庞大的数据库中挖掘具有相似标题的配对视频，并利用大型语言模型生成相应的修改文本，我们构建了 WebVid-CoVR 数据集，其中包含 1.6 百万个三元组。实验证明，在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR，提高了 CIRR 和 FashionIQ 基准测试中的最新性能。

Aug, 2023

基于电视剧的大规模情节导向多模态数据集 PTVD

该研究通过使用 1,106 集电视剧和 24,875 个由专业人士编写的信息密集的剧情句子，进行 449 个人类注释者的标注，构建了第一个面向剧情的电视领域的多模态数据集 PTVD，同时也是该领域中第一个非英文的数据集，并开发了多模态算法，针对不同的电影 / 电视建模问题进行处理，并在三个认知启发任务上进行了广泛的实验，从而验证了该数据集在促进多模态研究上的价值。

Jun, 2023

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

文本到视频人物检索与一个新基准

本研究提出了一种新的任务称为 Text-to-Video Person Retrieval (TVPR)，并构建了一个包含自然语言注释的大规模跨模态人员视频数据集 (TVPReid)，利用 Bert 获取字幕表示并研究字幕与视频表示之间的关系以揭示最相关的个人视频，并基于融合视觉和运动表示为基础进行视频表示，并提出了一个 TVPR 网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战，获得了 TVPRN 在 TVPReid 数据集上的最佳性能表现。

Jul, 2023