CVPRFeb, 2023

连接视觉和语言:基于视频本地化叙述的研究

TL;DR本文提出了一种新形式的多模态视频注释方法:基于视频的定位叙事。在此方法中,注释员不仅可以说出视频中发生的事件,而且还可以使用鼠标追踪分段来定位句子的表示部分。同时,作者采用了该方法对三个数据集中的 20,000 个视频进行了注释,并提供了视频故事理解和视频问题回答任务的评测基准以及来自强基准模型的参考结果。