Nov, 2023

VideoCon: 强大的视频 - 语言对齐通过对比字幕

TL;DR通过介绍 VideoCon,我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频 - 语言对齐模型的鲁棒性,提出了一个广泛的对比失配频谱,并通过一个大规模语言模型构建了基于对比视频字幕的 VideoCon 对齐数据集,我们的对齐模型在人为生成的对比字幕上在视频 - 语言对齐任务中的 AUC 指标上有了 12 个百分点的提升,同时在诸如文本到视频检索(SSv2-Temporal)和视频问答(ATP-Hard)等时间广泛的视频 - 语言任务中表现出了零 - shot 的最新性能。