通过软对比学习改善多语言对齐

ACLMay, 2024

Improving Multi-lingual Alignment Through Soft Contrastive Learning

Minsu Park, Seyeon Choi, Chanyeol Choi, Jun-Seong Kim, Jy-yong Sohn

TL;DR提出新的方法来对齐多语种嵌入，基于单语种嵌入模型中句子的相似性测量；实验证明我们的方法在多语种数据集上表现出色，优于现有的多语种嵌入方法和对比损失方法。

Abstract

Making decent multi-lingual sentence representations is critical to achieve high performances in cross-lingual downstream tasks. In this work, we propose a novel method to align multi-lingual embeddings based on

multi-lingual sentence representations align multi-lingual embeddings contrastive learning soft labels bitext mining tasks

发现论文，激发创造

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

对比学习能够学习通用的跨语言句子嵌入

本文提出了 mSimCSE，在英文数据上进行对比学习，不需要平行数据，可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中，mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上，无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时，性能可以进一步提高。

Nov, 2022

使用双动量对跨语言句子表示进行对齐

本文提出一种方法，将不同语言的句子表示对齐到统一的嵌入空间中，从而计算语义相似性，并使用 MoCo 方法进一步提高对齐质量，实现了在 Tatoeba en-zh 相似度搜索、BUCC en-zh 比特语料挖掘和 7 个数据集上的语义文本相似性等多项任务中新的最先进水平。

Sep, 2021

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

预训练后的对齐：通过跨语言对齐提升多语生成模型

通过利用翻译句子对齐内部句子表示，并通过回答不同语言的提示问题对齐模型输出，我们提出了一个简单而有效的对齐框架，显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明，它导致了更好的多语言模型的内部多语言表示分布。

Nov, 2023

跨语言对齐的多层对比学习

本文提出了一种多级对比学习（ML-CTL）框架，使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习，以进一步提高预训练模型的跨语言能力。其中，采用了交叉零噪声对比估计（CZ-NCE）损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型（mBERT）的跨语言迁移能力，并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。

Feb, 2022

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

超越对比学习：一种多语言检索的变分生成模型

本文提出了一种新的多语种文本嵌入生成模型 —— VMSST，通过在 $N$ 种语言的并行数据上运行，通过一个引入的近似算法，在多语种语境中鼓励源分离，我们在比较学习多语种文本嵌入的对比和基于生成的方法时，对其进行了仔细的大规模比较，并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估，从而证明了其优越性。

Dec, 2022

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

VECO 2.0: 多粒度对比学习的跨语言语言模型预训练

本文提出了一种基于对比学习的多粒度对齐的跨语言预训练模型 VECO~2.0，将序列到序列对齐和标记到标记对齐相结合，以支持跨语言模型预训练，通过在 XTREME 基准上的实验证明了该方法的有效性。

Apr, 2023