用GRU门控注意力模型进行神经机器翻译
通过使用卷积神经网络和目标信息来指导源信息并形成统一的表达,该神经网络联合模型可以在两个 NIST 中英翻译任务中显著提高平均 BLEU 分数,达到 +1.08 BLEU 分数。
Mar, 2015
本文研究了两种简单而有效的注意力机制——全局式和局部式,证明了这两种方法在英德翻译任务中的有效性,并使用不同的注意力架构建立了一个新的WMT'15英德翻译任务最佳结果的集成模型,其BLEU分数为25.9分,比现有的最佳基于NMT和n-gram reranker的系统提高1.0分。
Aug, 2015
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了Bahdanau等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
本文提出循环序列到序列学习(Cseq2seq)来解决传统序列到序列学习(seq2seq)在编码源序列时无法处理源序列和目标序列结构一一对应的问题,并通过实验证明Cseq2seq实现了显著和稳定的性能提升。
Jul, 2016
本文介绍了一种基于注意力机制的神经机器翻译模型,该模型通过暂时性存储对齐信息和调节注意力值的方法,提高了翻译效果, 在两种语言对上的大规模实验中,该方法不仅超越了基线NMT模型,还比其他相关方法表现更出色,甚至有些情况下在不使用集成的情况下也能胜过SMT基准。
Aug, 2016
Google发布的GNMT神经机器翻译系统采用LSTM深度学习网络,使用attention机制和残差连接,借助词元素(wordpieces)将单词划分为子单元,提高了稀有单词处理能力与整体系统精度。
Sep, 2016
本文提出了一种在一个新的句法距离约束下扩展局部注意力的神经机器翻译模型,同时进一步提出了一个双重上下文神经机器翻译体系结构,以提高翻译性能。实验证明,该方法从源表示中实现了显著和重大的改进。
Nov, 2017
我们提出了针对多种源语言和目标语言翻译的任务特定的注意力模型,旨在改进序列到序列神经机器翻译的质量。我们在欧洲议会语料库的四种语言上进行的实验表明,使用目标语言特定的注意力模型相对于参数共享模型提供了一致的翻译质量的提升,甚至在低资源的零-shot翻译方向上也观察到了翻译质量的改善。
Jun, 2018
本文提出了一种层次化的注意力模型,通过在神经机器翻译中引入文本级的上下文信息,有效提升了翻译的质量。实验结果表明,编码器和解码器都对上下文信息做出了积极贡献。
Sep, 2018
通过对 NMT 模型的多个语言对进行实验,本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性,可以通过指标去评估其注意力权重的一些方面,同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名,并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。
May, 2021