适应预训练的单语和多语模型的机器翻译配方

ACLApr, 2020

适应预训练的单语和多语模型的机器翻译配方

Recipes for Adapting Pre-trained Monolingual and Multilingual Models to Machine Translation

Asa Cooper Stickland, Xian Li, Marjan Ghazvininejad

TL;DR本文旨在研究利用预训练模型进行机器翻译时，冻结参数与添加新参数来微调预训练模型的优点和缺点，通过试验方式得出最优结果。结果表明，当微调 monolingual 预训练模型时，通过冻结大部分模型参数并添加更多的位置嵌入可以在机器翻译任务中获得最佳性能表现，最重要的微调参数是编码器 - 解码器的关注力参数。

Abstract

There has been recent success in pre-training on monolingual data and fine-tuning on machine translation (MT), but it remains unclear how

pre-training fine-tuning machine translation bart mbart

发现论文，激发创造

可扩展的跨语言预训练和微调技术实现多语言翻译

本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型，并且证明在不失性能的前提下，预训练模型可以扩展到更多语言。此外，作者基于 ML50 数据集表明，多语言微调相较于其他训练方式有显著提升。

Aug, 2020

多语言神经机器翻译的语言家族适配器

本文提出在预训练的多语言模型上训练语言家族适配器，以促进跨语言转移。该模型一致优于其他基于适配器的方法，并证明了语言家族适配器提供了一种有效的将语言翻译到预训练期间未见过的语言的方法。

Sep, 2022

从预训练模型获取知识到神经机器翻译

本文提出了一种 APT 框架，在神经机器翻译中利用预训练模型的语言知识，该框架包括两个模块：1）动态融合机制，将从通用知识中适应的任务特定特征融合到 NMT 网络中；2）知识蒸馏范式，在 NMT 训练过程中连续学习语言知识。实验结果表明，我们的模型优于强基线和微调对应模型。

Dec, 2019

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

极低资源神经机器翻译的连续混合语言预训练

本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言，通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务，结果表明我们的方法能够持续提高翻译性能。

May, 2021

通过不间断学习探索预训练跨语言模型的微调技巧

针对 fine-tuning 预训练语言模型后其跨语言能力减弱的问题，该研究提出了一种利用 continual learning 来保持其原有跨语言能力的方法，并在句子检索、跨语言词性标注和命名实体识别等任务中达到更好的性能。

Apr, 2020

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高 + 2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对 IWSLT 15 任务英德翻译有实质性的改善。

Nov, 2015

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

预训练的多语言序列到序列模型：底资源语言翻译的希望？

通过在 10 种语言上进行完备实验，考虑了五个因素：（1）微调数据量，（2）微调数据中的噪声，（3）模型预训练数据量，（4）领域不匹配的影响以及（5）语言类型学，我们试图确定预训练多语言序列到序列模型（如 mBART）对翻译低资源语言有何贡献，并提出了许多启发式方法。实验结果显示，mBART 对领域差异具有鲁棒性，但对未知和语言类型学差异较大的语言的翻译仍低于 3.0 BLEU。因此，我们鼓励将重点从新模型转向新数据。

Mar, 2022

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020