AAAIFeb, 2023

时序自监督的音视频对比学习

TL;DR本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。