Apr, 2024

DIBS: 通过伪边界丰富和在线优化提升无标签视频的密集视频字幕

TL;DR我们提出了Dive Into the BoundarieS (DIBS),这是一种新颖的预训练框架,用于密集视频字幕生成(DVC),强调改善来自未标记视频的生成事件字幕的质量以及相关的伪事件边界。通过充分发挥多样性大型语言模型(LLMs)的能力,我们生成与DVC相关的丰富字幕候选项,并在几个精心设计的目标下优化相应的伪边界,考虑到多样性、事件中心性、时间排序和连贯性。此外,我们还引入了一种新颖的在线边界精化策略,通过反复改善训练过程中伪边界的质量。通过进行全面的实验来检验所提出的技术组件的有效性。利用大量未标记的视频数据,如HowTo100M,我们在标准的DVC数据集如YouCook2和ActivityNet上取得了显著的进展。在大多数评估指标上,我们超过了先前的最先进方法Vid2Seq,而且仅使用Vid2Seq用于预训练的0.4%未标记视频数据。