用GRU门控注意力模型进行神经机器翻译

Apr, 2017

用GRU门控注意力模型进行神经机器翻译

A GRU-Gated Attention Model for Neural Machine Translation

Biao Zhang, Deyi Xiong, Jinsong Su

TL;DR本文提出了一种新的GRU门控注意力模型，可以通过使源表示对编码器状态敏感，从而增强了上下文向量的区分度，实现了对目标单词的区分性预测，并在NIST中英翻译任务中取得了显著的改进。

Abstract

neural machine translation (NMT) heavily relies on an attention network to produce a context vector for each target word prediction. In practice, we find that context vectors for different target words are quite similar to one another and therefore are insufficient in discriminatively

发现论文，激发创造

使用卷积神经网络对源语言进行编码以进行机器翻译

通过使用卷积神经网络和目标信息来指导源信息并形成统一的表达，该神经网络联合模型可以在两个 NIST 中英翻译任务中显著提高平均 BLEU 分数，达到 +1.08 BLEU 分数。

Mar, 2015

基于注意力机制的神经机器翻译有效方法

本文研究了两种简单而有效的注意力机制——全局式和局部式，证明了这两种方法在英德翻译任务中的有效性，并使用不同的注意力架构建立了一个新的WMT'15英德翻译任务最佳结果的集成模型，其BLEU分数为25.9分，比现有的最佳基于NMT和n-gram reranker的系统提高1.0分。

Aug, 2015

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了Bahdanau等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

Cseq2seq: 循环序列到序列学习

本文提出循环序列到序列学习（Cseq2seq）来解决传统序列到序列学习（seq2seq）在编码源序列时无法处理源序列和目标序列结构一一对应的问题，并通过实验证明Cseq2seq实现了显著和稳定的性能提升。

Jul, 2016

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线NMT模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过SMT基准。

Aug, 2016

谷歌的神经机器翻译系统：弥合人类翻译和机器翻译之间的差距

Google发布的GNMT神经机器翻译系统采用LSTM深度学习网络，使用attention机制和残差连接，借助词元素(wordpieces)将单词划分为子单元，提高了稀有单词处理能力与整体系统精度。

Sep, 2016

神经机器翻译的语法导向注意力

本文提出了一种在一个新的句法距离约束下扩展局部注意力的神经机器翻译模型，同时进一步提出了一个双重上下文神经机器翻译体系结构，以提高翻译性能。实验证明，该方法从源表示中实现了显著和重大的改进。

Nov, 2017

具有任务特定注意力机制的多语言神经机器翻译

我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型，旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明，使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升，甚至在低资源的零-shot翻译方向上也观察到了翻译质量的改善。

Jun, 2018

层级注意力网络在文档级神经机器翻译中的应用

本文提出了一种层次化的注意力模型，通过在神经机器翻译中引入文本级的上下文信息，有效提升了翻译的质量。实验结果表明，编码器和解码器都对上下文信息做出了积极贡献。

Sep, 2018

多语言神经机器翻译模型是否包含特定于语言的注意力头？

通过对 NMT 模型的多个语言对进行实验，本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性，可以通过指标去评估其注意力权重的一些方面，同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名，并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。

May, 2021