Sep, 2021
MLIM: 带掩码语言和图像建模的视觉语言模型预训练
MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling
TL;DR本文介绍了一种新的VLP方法:MLIM,它使用Masked Language Modeling和Image Reconstruction两种损失函数以及Modality Aware Masking技术来增强语言和图片之间的交互,并在e-commerce多模态数据集上展示了更好的下游任务表现。