CVPRNov, 2022

利用语义完形学习进行视觉语言预训练的漏洞填补

TL;DR本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务,实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。