Oct, 2022

MAMO:面向细粒度视觉语言表征学习的遮蔽多模态建模

TL;DR本文提出一种联合掩蔽多模态建模方法(MAMO),通过联合掩盖图像-文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉-语言任务中的最新成果。