May, 2023

一个带有阅读理解的大型跨模态视频检索数据集

TL;DR提出了一种新的跨模态视频检索数据集TextVR,它包含了八个场景领域的10.5k个视频和42.2k个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。