ICMLJul, 2022

LAVA: 用于对比视频预训练的语言音频视觉对齐

TL;DR提出一种基于对比学习(contrastive learning)的学习方法 LAVA,用于自监督学习来学习联合语言、音频和视频表征,并使用变压器编码器在 Kinetics 700 数据集上预训练,其中相对于当前最先进的自监督和弱监督预训练技术,使用相对较少的标记数据,在 UCF-101 和 HMDB-51 视频动作识别方面表现出竞争力。