May, 2022

多模态掩模自编码器学习可转移表示

TL;DR本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。