使用透明化注意力训练更深层的神经机器翻译模型

EMNLPAug, 2018

使用透明化注意力训练更深层的神经机器翻译模型

Training Deeper Neural Machine Translation Models with Transparent Attention

Ankur Bapna, Mia Xu Chen, Orhan Firat, Yuan Cao, Yonghui Wu

TL;DR本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Abstract

While current state-of-the-art nmt models, such as RNN seq2seq and Transformers, possess a large number of parameters, they are still shallow in comparison to convolutional models used for both text and vision applications. In this work we attempt to train significantly (2-3x) deeper <

nmt models transformer bi-rnn encoders machine translation attention mechanism

发现论文，激发创造

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

深度变换器用于神经机器翻译

本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用，使用一种简单但有效的初始化技术来稳定训练，我们证明了可行性，并且通过使用 60 个编码器层和 12 个解码器层，此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果（其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU），代码和训练模型将在公开网站上开放。

Aug, 2020

机器翻译的深度 Transformer 模型学习

本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法，在机器翻译任务中，构建比 Transformer-Big 模型更深层的 Transformer 模型，并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统（30/25 层编码器）与浅层 Transformer-Big / 基线（6 层编码器）相比，BLEU 分数提高了 0.4-2.4 点，而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。

Jun, 2019

神经机器翻译的深度架构

本文介绍和评估了引入深度的机器翻译模型的若干现有方法和新型架构，包括深转移 RNN 和不同深度解码时注意力的使用方式。实验结果表明，BiDeep RNN 架构的组合深度为 8 时在速度和翻译质量方面均有显著提高，相比强浅层基线的平均提高 1.5 BLEU。

Jul, 2017

浅层至深层训练用于神经机器翻译

本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进，并通过实验表明该方法可以显著提高翻译质量，并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。

Oct, 2020

基于快速前向连接的深度递归模型用于神经机器翻译

本研究提出了一种快速前向连接的 LSTM 神经网络，并采用交替双向架构来堆叠 LSTM 层。基于这种方法，在 WMT'14 英语 - 法语任务上，我们用单一的注意力模型实现了 BLEU=37.7，并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。

Jun, 2016

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018