Jun, 2020

M3P:通过多任务、多语言、多模态的预训练学习通用表示

TL;DRM3P是一个多任务多语言多模态预训练模型,通过多任务预训练将多语言预训练和多模态预训练结合到一个统一的框架中。该模型的目标是学习通用表示法,可以将出现在不同模态或不同语言中的对象映射到一个公共的语义空间。此外,该论文还提出了Multimodal Code-switched Training(MCT)的训练策略,该策略通过代码切换将单语预训练和多模态预训练相结合,以明确地鼓励图像和非英语语言之间的细粒度对齐。在跨两个基准数据集的多语言图像检索任务上进行了实验,包括MSCOCO和Multi30K。M3P在英语上可以获得可比较的结果,在非英语语言上则获得了最新的最佳结果。