Apr, 2021

对比多模态预训练理解中文视频和语言

TL;DR本文提出了一种新型的视频 - 语言理解框架 VICTOR,通过对比学习范式构建了几个新型代理任务,使模型在不同角度能够更稳健并能够捕捉更多复杂的多模态语义和结构关系。通过在一个包括 10,000,000 个视频及其相应高质量文本描述的大规模中文视频语言数据集上训练 VICTOR,我们在一系列下游应用中展示了其优越的性能,并与 VideoBERT 和 UniVL 等先进的预训练方法进行了比较。