Jul, 2022

Clover: 一种统一的视频语言对齐和融合模型

TL;DR本文提出了Clover方法,通过一种新颖的三模式对齐预训练任务,提高了跨模式特征对齐和融合,同时通过从语义掩蔽样本学习和新的成对排名损失增强三模式对齐。Clover在多个下游任务中取得了新的最先进水平,包括零-shot和微调设置下的三个检索任务和八个视频问答任务。