机器翻译加权变形器网络
本文提出一种基于注意力机制的 Transformer 模型,优于使用循环或卷积神经网络的现有机器翻译模型,且可并行训练、训练时间更短,使得 BLEU 评分得以显著提高,并成功将该模型应用于英语句法分析等任务。
Jun, 2017
本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型,我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量,结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。
Aug, 2018
本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型,用于加速 Transformer 机器翻译系统,在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升(几乎不降低 BLEU)和与 Aan 模型的 1.8 倍加速(比没有使用注意力缓存的基线高出 16 倍)。
Jun, 2019
本文研究了自注意力模型在字符级神经机器翻译中的适用性,并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验,使用最多三种输入语言(法语,西班牙语和中文)进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer,并收敛更快,并学习更稳健的字符级别对齐。
Apr, 2020
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
本文研究了将句法知识纳入 Transformer 模型的不同方法,并提出一种新的、无需参数的依赖感知自注意机制,能够提高其翻译质量,特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。
Sep, 2019
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018
本文提出了新颖的基于词组注意 (phrase-based attention) 的方法,将 n 个词组建模为注意机制实体,从而在 Transformer 网络中引入这种方法,结果在 WMT'16 训练数据的英德翻译任务中,分别提高了 1.3 BLEU 和 0.5 BLEU。
Sep, 2018
研究表明,Transformer 模型虽然仅基于注意力机制,但缺乏循环机制限制了其翻译能力的提高,本文提出使用一个额外的循环编码器来直接建模循环,并引入一种新的注意力循环网络来结合注意力和循环网络的优点,在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现,研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。
Apr, 2019
本研究提出了一种快速前向连接的 LSTM 神经网络,并采用交替双向架构来堆叠 LSTM 层。基于这种方法,在 WMT'14 英语 - 法语任务上,我们用单一的注意力模型实现了 BLEU=37.7,并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。
Jun, 2016