Jun, 2022

跨视角语言建模:朝向统一的跨语言跨模态预训练

TL;DR本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架,通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据(即图像字幕对)和多语言数据(即平行句子对)作为同一对象的两个不同视角,通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明,CCLM 显着优于先前的最新技术,在绝对平均改进方面超过 10%,是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。