Sep, 2021

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

TL;DR本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。