May, 2021

VLM: 任务无关的视频语言模型预训练,用于视频理解

TL;DR提供了一种简化、任务无关的多模态预训练方法,可以接受视频或文本输入,或两者皆可用于各种端任务。实验结果表明,在多种任务中表现出比以前的方法更强的性能,通常优于任务特定的预训练。