EMNLPMay, 2020

HERO: 视频 + 语言全方位表示的分层编码器预训练

TL;DRHERO 是一个用于大规模视频 + 语言综合表示学习的新框架,能够通过跨模态变换器捕获视频帧的本地上下文和全局上下文,并经过多模态融合进行编码;在标准的遮蔽语言建模和遮蔽帧建模目标的基础上,还设计了两个新的预训练任务:视频 - 字幕匹配和帧顺序建模,并在 HowTo100M 和大规模电视数据集上进行联合训练以获得对多字符交互的复杂社会动态的深入理解。全面的实验表明,在不同领域的基准测试中,HERO 在基于文本的视频 / 视频片段检索、视频问答、视频和语言推理以及视频字幕生成任务中均达到了新的最佳性能,并且还引入了两个新的具有挑战性的基准测试 How2QA 和 How2R,这些测试集从各种多模式视频内容中收集而来。