基于快速前向连接的深度递归模型用于神经机器翻译

ACLJun, 2016

基于快速前向连接的深度递归模型用于神经机器翻译

Deep Recurrent Models with Fast-Forward Connections for Neural Machine Translation

Jie Zhou, Ying Cao, Xuguang Wang, Peng Li, Wei Xu

TL;DR本研究提出了一种快速前向连接的 LSTM 神经网络，并采用交替双向架构来堆叠 LSTM 层。基于这种方法，在 WMT'14 英语 - 法语任务上，我们用单一的注意力模型实现了 BLEU=37.7，并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。

Abstract

neural machine translation (NMT) aims at solving machine translation (MT) problems using neural networks and has exhibited promising results in recent years. However, most of the existing NMT models are shallow and there is still a performance gap between a single NMT model and the bes

neural machine translation deep lstm fast-forward connections bleu attention mechanism

发现论文，激发创造

谷歌的神经机器翻译系统：弥合人类翻译和机器翻译之间的差距

Google 发布的 GNMT 神经机器翻译系统采用 LSTM 深度学习网络，使用 attention 机制和残差连接，借助词元素 (wordpieces) 将单词划分为子单元，提高了稀有单词处理能力与整体系统精度。

Sep, 2016

DTMT: 一种新颖的深度过渡架构用于神经机器翻译

本研究采用深度转移递归神经网络的模型构架方法，增加了模型的深度，通过多次非线性转化的隐藏状态转移以及线性变换路径的设计，有效解决了梯度消失的问题，显著提高了翻译质量，其中 DTMT 在中文 - 英文翻译任务中的 BLEU 分数比 Transformer 模型提高了 2.09 分，并在 WMT14 英德、英法翻译任务上显示出优异的质量。

Dec, 2018

深度变换器用于神经机器翻译

本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用，使用一种简单但有效的初始化技术来稳定训练，我们证明了可行性，并且通过使用 60 个编码器层和 12 个解码器层，此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果（其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU），代码和训练模型将在公开网站上开放。

Aug, 2020

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

使用弱递归单元的深度神经机器翻译

本文提出一个名为简单循环 NMT 的新的循环神经网络机器翻译体系结构，该体系结构基于一类快速且弱循环单元，使用层归一化和多个注意力机制。在 WMT14 英德和 WMT16 英罗曼尼亚基准上的实验表明，我们的模型作为 LSTMs 的有效替代品，可以在显著降低计算成本的情况下实现更好的结果。

May, 2018

神经机器翻译的深度增长

本文提出了一种有效的两阶段方法，包括三个特别设计的组件，以构建深度 NMT 模型，并在 WMT14 英德和英法翻译任务中取得了比强 Transformer 基线显着的改进。

Jul, 2019

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

神经机器翻译卷积编码器模型

本文提出了一种基于卷积层的神经机器翻译框架，相比双向 LSTM 网络，该框架可以同时编码整个源语句，从而加速了翻译速度，在 WMT'16 数据集上达到了竞争水平的准确性，并在 WMT'15 和 WMT'14 数据集上取得了优异的结果。

Nov, 2016

神经机器翻译一句话一模型

本篇论文提出了动态神经机器翻译 (Dynamic NMT) 的方法，通过对测试句子进行微调以适应具体场景，从而显着提高翻译性能。该方法特别适用于高度相似的句子。

Sep, 2016

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019