CVPRFeb, 2023

Vid2Seq:面向密集视频字幕生成的视觉语言模型的大规模预训练

TL;DR本文介绍了 Vid2Seq,这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型,可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界,作为伪事件边界,并使用语音转录句子作为伪事件字幕,从而利用未标记的视频进行密集视频字幕生成的预训练,并且该模型在 YouCook2、ViTT 和 ActivityNet Captions 等多项密集视频字幕生成基准测试中实现了最优的性能。