CVPRJan, 2022

MERLOT Reserve: 通过视觉、语言和声音获得神经剧本知识

TL;DR介绍了一种多模态预训练模型 MERLOT Reserve,该模型在预训练时利用音频、字幕和视频帧一起学习,可以实现强大的多模态表示,并在一些视频任务上取得了领先水平,提出了音频为何能够提高视觉 - 语言表示的可能性,并讨论了这种多模态预训练的伦理和社会影响。