极低资源神经机器翻译的连续混合语言预训练

ACLMay, 2021

极低资源神经机器翻译的连续混合语言预训练

Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation

Zihan Liu, Genta Indra Winata, Pascale Fung

TL;DR本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言，通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务，结果表明我们的方法能够持续提高翻译性能。

Abstract

The data scarcity in low-resource languages has become a bottleneck to building robust neural machine translation systems. Fine-tuning a multilingual pre-trained model (e.g., mBART (Liu et al., 2020)) on the tran

neural machine translation low-resource languages multilingual pre-trained model continual pre-training unseen languages

发现论文，激发创造

预训练的多语言序列到序列模型：底资源语言翻译的希望？

通过在 10 种语言上进行完备实验，考虑了五个因素：（1）微调数据量，（2）微调数据中的噪声，（3）模型预训练数据量，（4）领域不匹配的影响以及（5）语言类型学，我们试图确定预训练多语言序列到序列模型（如 mBART）对翻译低资源语言有何贡献，并提出了许多启发式方法。实验结果显示，mBART 对领域差异具有鲁棒性，但对未知和语言类型学差异较大的语言的翻译仍低于 3.0 BLEU。因此，我们鼓励将重点从新模型转向新数据。

Mar, 2022

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

可扩展的跨语言预训练和微调技术实现多语言翻译

本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型，并且证明在不失性能的前提下，预训练模型可以扩展到更多语言。此外，作者基于 ML50 数据集表明，多语言微调相较于其他训练方式有显著提升。

Aug, 2020

利用 BERT 优化神经机器翻译

本文介绍了一种有力的方法，将事先训练好的语言模型（LMs）与神经机器翻译（NMT）相结合，以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题，并在机器翻译任务中取得了优越的成果。

Aug, 2019

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

ZmBART：一种用于语言生成的无监督跨语言转移框架

本文针对自然语言生成中跨语言转移的研究相对匮乏，介绍了一种无监督的跨语言语言生成框架 ZmBART，使用少量高资源语言数据进行监督学习，并通过预训练的方式，利用三种语言的单语数据来进行无监督学习，最终在多种低资源语言上获得了较好的性能。

Jun, 2021

通过持续预训练和字典学习分析改进使用翻译数据训练的语言模型

利用机器翻译从英语训练 LLMs 在低资源语言中通常会带来翻译的挑战，然而我们研究了机器翻译和合成数据在训练语言模型中的作用，并通过案例研究展示了改进的效果。

May, 2024

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Apr, 2022

适应预训练的单语和多语模型的机器翻译配方

本文旨在研究利用预训练模型进行机器翻译时，冻结参数与添加新参数来微调预训练模型的优点和缺点，通过试验方式得出最优结果。结果表明，当微调 monolingual 预训练模型时，通过冻结大部分模型参数并添加更多的位置嵌入可以在机器翻译任务中获得最佳性能表现，最重要的微调参数是编码器 - 解码器的关注力参数。

Apr, 2020