CVPRMay, 2021

面向未剪辑视频的多样段落字幕

TL;DR本研究提出了一种基于自适应动态视频记忆的视频段落字幕生成模型,并采用多样性驱动的训练策略,通过关注模型的视觉焦点和提高多样性来生成具有连贯性和多样性特征的段落。实验证明该模型不但提高了生成准确度和多样性,而且还能有效地处理未剪辑的视频数据。