CVPRDec, 2022

VindLU:一种实现视频与语言预训练的有效方法

TL;DR该研究论文分析了现代视频和语言(VidL)模型设计的最重要因素,其中包括时空建模、多模态融合、预训练数据选择和细调等,发现视频到文本多模态融合、掩蔽建模目标和图像和视频的联合训练等设计因素对于提高模型效果非常重要,提出了一种名为 VindLU 的有效 VidL 预训练新模型,达到了与现有模型可比甚至更好的性能表现,在多个任务上的性能指标均表现优异。