Apr, 2021
UC2: 通用跨语言跨模态视觉语言预训练
UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training
TL;DRUC2是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的Masked Language Modeling 和 Image-Text Matching训练目标扩展到多语言环境,通过共享视觉上下文(即使用图像作为枢纽)来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务,Masked Region-to-Token Modeling(MRTM)和Visual Translation Language Modeling(VTLM),以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明,我们的提议框架在各种非英语基准上实现了新的最先进状态,并在英语任务上保持与单语预训练模型相当的性能。