VECO 2.0: 多粒度对比学习的跨语言语言模型预训练
本文提出了一种在 Transformer 编码器中添加交叉注意力模块的方法,用于处理多语言预训练中的语言依赖关系问题,并在多种跨语言任务中获得新的最先进结果。
Oct, 2020
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
本文提出了一种多级对比学习(ML-CTL)框架,使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习,以进一步提高预训练模型的跨语言能力。其中,采用了交叉零噪声对比估计(CZ-NCE)损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型(mBERT)的跨语言迁移能力,并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。
Feb, 2022
本文使用序列到序列模型进行自然语言生成任务,使用预训练的方法并将编码器和解码器用于单语和跨语言,实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。
Sep, 2019
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。
May, 2023
本文提出了一种新的多语种文本嵌入生成模型 —— VMSST,通过在 $N$ 种语言的并行数据上运行,通过一个引入的近似算法,在多语种语境中鼓励源分离,我们在比较学习多语种文本嵌入的对比和基于生成的方法时,对其进行了仔细的大规模比较,并对其进行了语义相似性、位文本挖掘、跨语言问题检索等任务的评估,从而证明了其优越性。
Dec, 2022
本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型(multilingual Seq2Seq PLMs) 的性能的方法,实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART,可以缩小跨语言句子表示的欧几里得距离,并且在计算成本方面没有太多的增加。
Apr, 2022
通过研究多语言掩码语言建模问题,我们阐述了若干因素,即为何这些模型在跨语言转移方面如此有效,并证明了即使单语料库之间没有共享词汇,也可以进行转移,只需在多语言编码器顶层存在一些共享参数。同时,我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐,这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模,这些对称性似乎是在联合训练过程中自动发现和对齐的。
Nov, 2019