Nov, 2023
VideoCon: 强大的视频-语言对齐通过对比字幕
VideoCon: Robust Video-Language Alignment via Contrast Captions
TL;DR通过介绍VideoCon,我们的研究在应对视频字幕中语义上合理的对比变化方面改进了视频-语言对齐模型的鲁棒性,提出了一个广泛的对比失配频谱,并通过一个大规模语言模型构建了基于对比视频字幕的VideoCon对齐数据集,我们的对齐模型在人为生成的对比字幕上在视频-语言对齐任务中的AUC指标上有了12个百分点的提升,同时在诸如文本到视频检索(SSv2-Temporal)和视频问答(ATP-Hard)等时间广泛的视频-语言任务中表现出了零-shot的最新性能。