CVPRMay, 2021
口述时刻:从视频描述中学习联合音频视觉表示
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions
Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio Feris...
TL;DR本文介绍了一种新的数据集,名为 ‘Spoken Moments’,共收集了 500k 由语音记录的视频描述并提出一种名为 AMM 的对比学习方法,用于视频标注和检索任务,并通过评估得到了较好的实验结果。