预训练的多语言序列到序列模型：底资源语言翻译的希望？

ACLMar, 2022

预训练的多语言序列到序列模型：底资源语言翻译的希望？

Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation?

En-Shiun Annie Lee, Sarubi Thillainathan, Shravan Nayak, Surangika Ranathunga, David Ifeoluwa Adelani...

TL;DR通过在 10 种语言上进行完备实验，考虑了五个因素：（1）微调数据量，（2）微调数据中的噪声，（3）模型预训练数据量，（4）领域不匹配的影响以及（5）语言类型学，我们试图确定预训练多语言序列到序列模型（如 mBART）对翻译低资源语言有何贡献，并提出了许多启发式方法。实验结果显示，mBART 对领域差异具有鲁棒性，但对未知和语言类型学差异较大的语言的翻译仍低于 3.0 BLEU。因此，我们鼓励将重点从新模型转向新数据。

Abstract

What can pre-trained multilingual sequence-to-sequence models like mBART contribute to translating low-resource languages? We conduct a thorough empirical experiment in 10 languages to ascertain this, considering

multilingual sequence-to-sequence models low-resource languages fine-tuning data machine translation systems new data

发现论文，激发创造

极低资源神经机器翻译的连续混合语言预训练

本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言，通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务，结果表明我们的方法能够持续提高翻译性能。

May, 2021

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023

ZmBART：一种用于语言生成的无监督跨语言转移框架

本文针对自然语言生成中跨语言转移的研究相对匮乏，介绍了一种无监督的跨语言语言生成框架 ZmBART，使用少量高资源语言数据进行监督学习，并通过预训练的方式，利用三种语言的单语数据来进行无监督学习，最终在多种低资源语言上获得了较好的性能。

Jun, 2021

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

可扩展的跨语言预训练和微调技术实现多语言翻译

本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型，并且证明在不失性能的前提下，预训练模型可以扩展到更多语言。此外，作者基于 ML50 数据集表明，多语言微调相较于其他训练方式有显著提升。

Aug, 2020

IndicBART：用于 Indic 自然语言生成的预训练模型

本文探讨了预训练的序列到序列模型在相关语言群中的应用，关注印欧语言。我们介绍了 IndicBART - 一种针对 11 种印欧语言和英语的多语言序列到序列预训练模型。通过利用印欧语言之间的拼写相似性，IndicBART 在类似印欧语言之间进行转移学习，获得了不错的性能表现。研究表明，即使相对较小的 IndicBART 模型在机器翻译和极端摘要等任务上也具有与大型预训练模型相媲美的性能，甚至在很低资源的情况下依然表现优异。模型参数共享，多语言训练等技术有助于提高 IndicBART 模型的性能水平。

Sep, 2021

多语言 BERT 中的各种语言是否平等？

本文研究了 Multilingual BERT 在多种语言下的性能表现，特别是在对低资源语言的表示质量方面的评估，结果表明 Monolingual BERT 和 mBERT 相比差距较大，而解决这个问题的关键在于更有效的预训练技术或更多的数据。

May, 2020

GreekBART：第一个预训练的希腊序列到序列模型

本篇论文介绍了 GreekBART，这是第一个基于 BART-base 架构的 Seq2Seq 模型，经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现，并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。

Apr, 2023