跨视角语言建模：朝向统一的跨语言跨模态预训练

Jun, 2022

跨视角语言建模：朝向统一的跨语言跨模态预训练

Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

Yan Zeng, Wangchunshu Zhou, Ao Luo, Xinsong Zhang

TL;DR本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架，通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据（即图像字幕对）和多语言数据（即平行句子对）作为同一对象的两个不同视角，通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明，CCLM 显着优于先前的最新技术，在绝对平均改进方面超过 10％，是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。

Abstract

In this paper, we introduce cross-view language modeling, a simple and effective language model pre-training framework that unifies cross-lingual

cross-view language modeling cross-lingual cross-modal cclm multi-lingual

发现论文，激发创造

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

UC2: 通用跨语言跨模态视觉语言预训练

UC2 是第一个基于机器翻译增强的框架，用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集，通过机器翻译引入了其他语言的图像标题，然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境，通过共享视觉上下文（即使用图像作为枢纽）来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务，Masked Region-to-Token Modeling（MRTM）和 Visual Translation Language Modeling（VTLM），以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明，我们的提议框架在各种非英语基准上实现了新的最先进状态，并在英语任务上保持与单语预训练模型相当的性能。

Apr, 2021

CL2CM: 通过跨语言知识转移提升跨语言跨模态检索

跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架，使用跨语言转移改善了视觉和目标语言之间的对齐，可在跨模态网络中为可靠全面的语义对应（知识）提供优势，并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。

Dec, 2023

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

RC3：正则化对比交叉语言交叉模态预训练

该研究提出了 RC^3 pre-training 方法，该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练，并在下游的多模态任务中表现出更强的效果。

May, 2023

显式跨语言预训练用于无监督机器翻译

本文提出了一种新的跨语言预训练方法，通过融合显式的跨语言训练信号，从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.

Aug, 2019

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

三重对比学习视觉语言预训练

本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现。

Feb, 2022

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019