VECO 2.0: 多粒度对比学习的跨语言语言模型预训练

Apr, 2023

VECO 2.0: 多粒度对比学习的跨语言语言模型预训练

VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning

Zhen-Ru Zhang, Chuanqi Tan, Songfang Huang, Fei Huang

TL;DR本文提出了一种基于对比学习的多粒度对齐的跨语言预训练模型 VECO~2.0，将序列到序列对齐和标记到标记对齐相结合，以支持跨语言模型预训练，通过在 XTREME 基准上的实验证明了该方法的有效性。

Abstract

Recent studies have demonstrated the potential of cross-lingual transferability by training a unified transformer encoder for multiple languages. In addition to involving the masked language model objective, existing cross-lingual →

cross-lingual transferability transformer encoder pre-training contrastive learning token-to-token alignment

发现论文，激发创造

VECO: 变量和灵活的跨语言预训练模型，用于语言理解和生成

本文提出了一种在 Transformer 编码器中添加交叉注意力模块的方法，用于处理多语言预训练中的语言依赖关系问题，并在多种跨语言任务中获得新的最先进结果。

Oct, 2020

预训练后的对齐：通过跨语言对齐提升多语生成模型

通过利用翻译句子对齐内部句子表示，并通过回答不同语言的提示问题对齐模型输出，我们提出了一个简单而有效的对齐框架，显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明，它导致了更好的多语言模型的内部多语言表示分布。

Nov, 2023

跨语言对齐的多层对比学习

本文提出了一种多级对比学习（ML-CTL）框架，使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习，以进一步提高预训练模型的跨语言能力。其中，采用了交叉零噪声对比估计（CZ-NCE）损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型（mBERT）的跨语言迁移能力，并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。

Feb, 2022

基于预训练的跨语言自然语言生成

本文使用序列到序列模型进行自然语言生成任务，使用预训练的方法并将编码器和解码器用于单语和跨语言，实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。

Sep, 2019

通过软对比学习改善多语言对齐

提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

May, 2024

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

超越对比学习：一种多语言检索的变分生成模型

本文提出了一种新的多语种文本嵌入生成模型 —— VMSST，通过在 $N$ 种语言的并行数据上运行，通过一个引入的近似算法，在多语种语境中鼓励源分离，我们在比较学习多语种文本嵌入的对比和基于生成的方法时，对其进行了仔细的大规模比较，并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估，从而证明了其优越性。

Dec, 2022

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Apr, 2022

预训练语言模型中新兴的跨语言结构

通过研究多语言掩码语言建模问题，我们阐述了若干因素，即为何这些模型在跨语言转移方面如此有效，并证明了即使单语料库之间没有共享词汇，也可以进行转移，只需在多语言编码器顶层存在一些共享参数。同时，我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐，这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模，这些对称性似乎是在联合训练过程中自动发现和对齐的。

Nov, 2019