ICLROct, 2022

对比音视频掩码自编码器

TL;DR本文提出了 CAV-MAE 模型,它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态,并结合自监督学习框架中的对比学习和蒙版数据建模两种方法,学习联合和协调的音频 - 视觉表示,并在 VGGSound 数据集中取得了新的 SOTA 准确性,达到了 65.9%。