CVPRMar, 2020

VIOLIN:一个大规模的视频和语言推理数据集

TL;DR本文介绍了一个新的任务 —— 视频与语言推理,用于联合多模态理解视频和文本,提出了一个名为 “Violin” 的大规模数据集并对其进行了分析,并对该任务进行了广泛评估。