ICMLJul, 2022
LAVA: 用于对比视频预训练的语言音频视觉对齐
LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training
Sumanth Gurram, Andy Fang, David Chan, John Canny
TL;DR提出一种基于对比学习(contrastive learning)的学习方法 LAVA,用于自监督学习来学习联合语言、音频和视频表征,并使用变压器编码器在 Kinetics 700 数据集上预训练,其中相对于当前最先进的自监督和弱监督预训练技术,使用相对较少的标记数据,在 UCF-101 和 HMDB-51 视频动作识别方面表现出竞争力。