CVPRMar, 2024

联合对齐和回归的孪生学习用于弱监督视频段落定位

TL;DR视频段落定位是视频语言理解中的新兴任务,其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位,消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架,我们联合学习跨模态特征对齐和无需时间戳标签的时间坐标回归,实现基于一阶定位的简洁弱监督视频段落定位。我们通过广泛实验验证了我们的范例具有卓越的实用性和灵活性,能够以高效的弱监督或半监督学习实现,并在使用相同或更强监督训练的最先进方法上表现出色。