该研究加入对比学习以蒸馏多语言表示,并用于平行语句的质量估计。实验证明,该方法在不同的资源稀少语言上显著优于先前的句子编码器,诸如 LASER 等。
Oct, 2022
本文提出了 mSimCSE,在英文数据上进行对比学习,不需要平行数据,可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中,mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上,无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时,性能可以进一步提高。
Nov, 2022
本文提出一种方法,将不同语言的句子表示对齐到统一的嵌入空间中,从而计算语义相似性,并使用 MoCo 方法进一步提高对齐质量,实现了在 Tatoeba en-zh 相似度搜索、BUCC en-zh 比特语料挖掘和 7 个数据集上的语义文本相似性等多项任务中新的最先进水平。
Sep, 2021
通过利用平行语料库和非平行语料库,采用对比学习等方法,有效提高了预训练多语言语言模型的跨语言传递能力,同时显著提高了检索性能,且计算成本较低。
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
本文提出了一种多级对比学习(ML-CTL)框架,使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习,以进一步提高预训练模型的跨语言能力。其中,采用了交叉零噪声对比估计(CZ-NCE)损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型(mBERT)的跨语言迁移能力,并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。
Feb, 2022
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
本文提出了一种新的多语种文本嵌入生成模型 —— VMSST,通过在 $N$ 种语言的并行数据上运行,通过一个引入的近似算法,在多语种语境中鼓励源分离,我们在比较学习多语种文本嵌入的对比和基于生成的方法时,对其进行了仔细的大规模比较,并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估,从而证明了其优越性。
Dec, 2022
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
本文提出了一种基于对比学习的多粒度对齐的跨语言预训练模型 VECO~2.0,将序列到序列对齐和标记到标记对齐相结合,以支持跨语言模型预训练,通过在 XTREME 基准上的实验证明了该方法的有效性。
Apr, 2023