CVPRMay, 2021

口述时刻:从视频描述中学习联合音频视觉表示

TL;DR本文介绍了一种新的数据集,名为 ‘Spoken Moments’,共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法,用于视频标注和检索任务,并通过评估得到了较好的实验结果。