神经机器翻译的扩展

Jun, 2018

Scaling Neural Machine Translation

Myle Ott, Sergey Edunov, David Grangier, Michael Auli

TL;DR通过采用降低精度和大批量培训，结合仔细的调整和实施，可以在单个 8-GPU 计算机上加速训练近 5 倍，从而达到在大型基准数据集上达到最先进性能的状态，如 WMT'14 英德翻译等任务。

Abstract

Sequence to sequence learning models still require several days to reach state of the art performance on large benchmark datasets using a single machine. This paper shows that reduced precision and large batch training<

sequence-to-sequence learning models reduced precision large batch training translation state-of-the-art performance

发现论文，激发创造

序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练

本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译，将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分，使用 4 个 GPU 训练和使用 1 个 GPU 训练相比，在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。

Sep, 2019

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

提升神经机器翻译

本文提出了一种基于数据增强和引导的训练方法来缓解神经机器翻译 (NMT) 训练效率方面的问题，它模拟人类学习过程，能够提高准确性并节省 20% 的训练时间。

Dec, 2016

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

多语言神经机器翻译的高效推理

本论文研究了如何通过采用轻量级解码器和词汇筛选来加速多语言神经机器翻译的推理速度，而不影响翻译质量，使用 BLEU 和 chrF 进行实验验证，并进行了健壮性评估和人类评估。

Sep, 2021

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

在一天内在单机上训练一个大型视频模型

通过优化 IO、CPU 和 GPU 计算，本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道，与之前的工作相比，我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。

Sep, 2023