May, 2022

多模态掩模自编码器学习可转移表示

TL;DR本论文提出一种基于Masked Token预测的大型多模式模型(M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE能够在配对和非配对的图像-文本数据上训练,具有可扩展性和灵活性。