神经机器翻译的深度架构

Jul, 2017

Deep Architectures for Neural Machine Translation

Antonio Valerio Miceli Barone, Jindřich Helcl, Rico Sennrich, Barry Haddow, Alexandra Birch

TL;DR本文介绍和评估了引入深度的机器翻译模型的若干现有方法和新型架构，包括深转移 RNN 和不同深度解码时注意力的使用方式。实验结果表明，BiDeep RNN 架构的组合深度为 8 时在速度和翻译质量方面均有显著提高，相比强浅层基线的平均提高 1.5 BLEU。

Abstract

It has been shown that increasing model depth improves the quality of neural machine translation. However, different architectural variants to increase →

neural machine translation model depth architectural variants attention bideep rnn

发现论文，激发创造

DTMT: 一种新颖的深度过渡架构用于神经机器翻译

本研究采用深度转移递归神经网络的模型构架方法，增加了模型的深度，通过多次非线性转化的隐藏状态转移以及线性变换路径的设计，有效解决了梯度消失的问题，显著提高了翻译质量，其中 DTMT 在中文 - 英文翻译任务中的 BLEU 分数比 Transformer 模型提高了 2.09 分，并在 WMT14 英德、英法翻译任务上显示出优异的质量。

Dec, 2018

神经机器翻译的深度增长

本文提出了一种有效的两阶段方法，包括三个特别设计的组件，以构建深度 NMT 模型，并在 WMT14 英德和英法翻译任务中取得了比强 Transformer 基线显着的改进。

Jul, 2019

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

深度变换器用于神经机器翻译

本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用，使用一种简单但有效的初始化技术来稳定训练，我们证明了可行性，并且通过使用 60 个编码器层和 12 个解码器层，此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果（其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU），代码和训练模型将在公开网站上开放。

Aug, 2020

基于快速前向连接的深度递归模型用于神经机器翻译

本研究提出了一种快速前向连接的 LSTM 神经网络，并采用交替双向架构来堆叠 LSTM 层。基于这种方法，在 WMT'14 英语 - 法语任务上，我们用单一的注意力模型实现了 BLEU=37.7，并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。

Jun, 2016

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

使用弱递归单元的深度神经机器翻译

本文提出一个名为简单循环 NMT 的新的循环神经网络机器翻译体系结构，该体系结构基于一类快速且弱循环单元，使用层归一化和多个注意力机制。在 WMT14 英德和 WMT16 英罗曼尼亚基准上的实验表明，我们的模型作为 LSTMs 的有效替代品，可以在显著降低计算成本的情况下实现更好的结果。

May, 2018

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020