具有局部约束的源目标自注意力

May, 2019

Joint Source-Target Self Attention with Locality Constraints

José A. R. Fonollosa, Noe Casas, Marta R. Costa-jussà

TL;DR本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

Abstract

The dominant neural machine translation models are based on the encoder-decoder structure, and many of them rely on an unconstrained receptive field over source and target sequences. In this paper we study a new architecture that breaks with both conventions. Our simplified architectur

neural machine translation transformer model self-attention locality constraints state of the art

发现论文，激发创造

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

基于自注意力机制的字符级翻译

本文研究了自注意力模型在字符级神经机器翻译中的适用性，并测试了标准 Transformer 模型以及一种新颖的变体。我们在 WMT 和 UN 数据集上进行了广泛实验，使用最多三种输入语言（法语，西班牙语和中文）进行双语和多语翻译。我们的变体在字符级别上始终优于标准 Transformer，并收敛更快，并学习更稳健的字符级别对齐。

Apr, 2020

神经机器翻译的自注意力残差解码器

提出一种基于目标端注意力残差循环网络的神经序列到序列网络，能够更好地捕捉非连续依赖关系以及通过关注机制获得更广泛的上下文信息，从而在机器翻译任务中取得了较好的效果。

Sep, 2017

多源句法神经机器翻译

提出了一种新颖的多源技术，利用线性化的解析将源语法合并到神经机器翻译中，通过使用单独的编码器将相同源语句的顺序和解析版本相结合，然后使用分层注意机制将结果表示组合，该模型在 WMT17 英德任务上比 seq2seq 和基线解析模型都有超过 1 BLEU 的改进，并且分析表明，与标准解析方法相比，我们的多源语法模型能够成功进行翻译而不需要任何已解析的输入，在长句子上的表现也不如基线模型差。

Aug, 2018

使用卷积神经网络对源语言进行编码以进行机器翻译

通过使用卷积神经网络和目标信息来指导源信息并形成统一的表达，该神经网络联合模型可以在两个 NIST 中英翻译任务中显著提高平均 BLEU 分数，达到 +1.08 BLEU 分数。

Mar, 2015

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022