ICLRAug, 2022

多模态表示学习的遮蔽视觉和语言建模

TL;DR本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种 V + L 任务中实现了最先进的性能。