机器翻译加权变形器网络

Nov, 2017

Weighted Transformer Network for Machine Translation

Karim Ahmed, Nitish Shirish Keskar, Richard Socher

TL;DR本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Abstract

State-of-the-art results on neural machine translation often use attentional sequence-to-sequence models with some form of convolution or recursion. Vaswani et al. (2017) propose a new architecture that avoids recurrence and convolution completely. Instead, it uses only →

neural machine translation self-attention feed-forward layers transformer bleu score

发现论文，激发创造

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

基于自注意力机制的字符级翻译

本文研究了自注意力模型在字符级神经机器翻译中的适用性，并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验，使用最多三种输入语言（法语，西班牙语和中文）进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer，并收敛更快，并学习更稳健的字符级别对齐。

Apr, 2020

具有局部约束的源目标自注意力

本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

May, 2019

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

基于短语的注意力机制

本文提出了新颖的基于词组注意 (phrase-based attention) 的方法，将 n 个词组建模为注意机制实体，从而在 Transformer 网络中引入这种方法，结果在 WMT'16 训练数据的英德翻译任务中，分别提高了 1.3 BLEU 和 0.5 BLEU。

Sep, 2018

Transformer 循环建模

研究表明，Transformer 模型虽然仅基于注意力机制，但缺乏循环机制限制了其翻译能力的提高，本文提出使用一个额外的循环编码器来直接建模循环，并引入一种新的注意力循环网络来结合注意力和循环网络的优点，在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现，研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。

Apr, 2019

基于快速前向连接的深度递归模型用于神经机器翻译

本研究提出了一种快速前向连接的 LSTM 神经网络，并采用交替双向架构来堆叠 LSTM 层。基于这种方法，在 WMT'14 英语 - 法语任务上，我们用单一的注意力模型实现了 BLEU=37.7，并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。

Jun, 2016