跨语言视觉预训练用于多模式机器翻译
UC2 是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境,通过共享视觉上下文(即使用图像作为枢纽)来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务,Masked Region-to-Token Modeling(MRTM)和 Visual Translation Language Modeling(VTLM),以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明,我们的提议框架在各种非英语基准上实现了新的最先进状态,并在英语任务上保持与单语预训练模型相当的性能。
Apr, 2021
该研究提出了 RC^3 pre-training 方法,该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练,并在下游的多模态任务中表现出更强的效果。
May, 2023
本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。
May, 2023
本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架,通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据(即图像字幕对)和多语言数据(即平行句子对)作为同一对象的两个不同视角,通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明,CCLM 显着优于先前的最新技术,在绝对平均改进方面超过 10%,是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。
Jun, 2022
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况,并提出了三种策略以提高它们在零 - shot 跨语言视觉问答任务中的性能。实验证明,该 Fine-tuning 策略取得了一致的效果。
Sep, 2022
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本文提出了一种新的跨语言预训练方法,通过融合显式的跨语言训练信号,从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.
Aug, 2019