Transformer 模型的训练技巧

Apr, 2018

Training Tips for the Transformer Model

Martin Popel, Ondřej Bojar

TL;DR本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数，并给出了一些实用建议，包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。

Abstract

This article describes our experiments in neural machine translation using the recent tensor2tensor framework and the Transformer sequence-to-sequence model (Vaswani et al., 2017). We examine some of the critical

neural machine translation tensor2tensor transformer model training parameters recommendations

发现论文，激发创造

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

为低资源神经机器翻译优化 Transformer

本文研究了神经机器翻译中低资源语种的问题，通过在 IWSLT14 数据集上的实验发现，在优化超参数设置的情况下，Transformer 模型在低资源情况下的翻译质量可以提高 7.3 个 BLEU 分数。

Nov, 2020

重新思考文档级神经机器翻译

通过合适的训练技术，使用原来的 Transformer 模型可以在涉及长度 2000 个单词的文档级别的翻译中取得比句子级别的模型更好的表现，并且在六种语言的九个文档级别和两个句子级别的数据集上，使用包括 BLEU，四个词法指标，三个新提出的辅助语言指标和人类评估在内的全面指标，证明了文档级别 Transformer 模型的优越性。

Oct, 2020

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

小批量大小提高低资源神经机器翻译训练

本研究证明在低资源训练中，相比于 GPU 内存允许的大批量训练，小批量训练在较短时间内可以得到更高的分数，并说这是由于在训练过程中梯度更好的正则化所导致的。

Mar, 2022

深度变换器用于神经机器翻译

本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用，使用一种简单但有效的初始化技术来稳定训练，我们证明了可行性，并且通过使用 60 个编码器层和 12 个解码器层，此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果（其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU），代码和训练模型将在公开网站上开放。

Aug, 2020

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

关于低资源语言翻译的最优 Transformer 深度

本研究对 Transformer 模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动 “Masakhane” 项目的发展。

Apr, 2020

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

使用原始 Transformer 对机器翻译任务进行有效的通用领域数据收录

本文介绍了一种基于 Transformer 模型的系统，旨在将德语源句子翻译成其英语目标句子，通过 WMT'13 数据集上的新闻评论德英平行句子的实验，我们发现在训练中加入 IWSLT'16 数据集的泛领域数据可以提高 Transformer 模型性能的 2 个 BLEU 分数点，从而改善生成翻译句子的质量。

Sep, 2022