Aug, 2023

MVMR: 对多个可靠视频池的评估自然语言视频定位偏见

TL;DR近年来,多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索(MVMR)任务,用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法,并介绍了三个 MVMR 数据集。针对这个任务,我们还开发了一个强大的模型,即可靠的互补匹配网络(RMMN),该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明,与现有的 NLVL 模型相比,我们的模型在 MVMR 任务中表现出显著的性能优势。