Transformer NMT 中的注意力权重不能完全对齐序列中的单词，但在很大程度上解释了模型的预测

Sep, 2021

Transformer NMT 中的注意力权重不能完全对齐序列中的单词，但在很大程度上解释了模型的预测

Attention Weights in Transformer NMT Fail Aligning Words Between Sequences but Largely Explain Model Predictions

Javier Ferrando, Marta R. Costa-jussà

TL;DR本文提出了关于 Transformer 网络在神经机器翻译（NMT）领域的广泛分析，重点关注编码器 - 解码器注意机制，证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响，并证明了编码器 - 解码器注意机制作为 NMT 的可解释性方法。最后，基于我们的分析，我们提出了可以大大降低单词对齐错误率的方法，与从注意力权重中引导对齐的标准方法相比。

Abstract

This work proposes an extensive analysis of the transformer architecture in the neural machine translation (NMT) setting. Focusing on the encoder-decoder attention mechanism, we prove that attention weights syste

transformer architecture neural machine translation encoder-decoder attention alignment errors interpretability method

发现论文，激发创造

注意力机制分析：基于神经机器翻译的词义消歧案例

本文研究了神经机器翻译中编码器 - 解码器注意机制的特点，发现当翻译含义模糊的词汇时，注意机制更关注上下文标记。但与其他名词相比，注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记，因此得出结论：注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明，NMT 模型在编码器隐藏状态中学习编码所需的上下文信息，而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记，而最后几层学习从相关但不对齐的上下文标记中提取特征信息。

Oct, 2018

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

多语言神经机器翻译模型是否包含特定于语言的注意力头？

通过对 NMT 模型的多个语言对进行实验，本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性，可以通过指标去评估其注意力权重的一些方面，同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名，并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。

May, 2021

从神经机器翻译中准确导出词语对齐

该论文指出 Transformer 的注意力机制可以捕捉到准确的单词对齐，并提出了两种新的词语对齐感应方法 Shift-Att 和 Shift-AET，在三个公开数据集上的实验表明，两种方法都优于它们对应的神经基线，Shift-AET 比 GIZA ++ 高 1.4-4.8 AER 点。

Apr, 2020

多头注意力机制下的神经机器翻译中的对齐问题

本研究旨在调查基于 Transformer 架构的多头注意力模型中的对齐问题，并证明了通过增加一个额外的对齐头可以提高 Transformer 模型的对齐抽取。通过字典引导翻译任务的模拟，我们使用所提出的方法，在与基准情况相比，使用字典时 BLEU 分数提高了 3.8％，而基准情况下提高了 2.4％的 BLEU 分数。我们还提出了对齐剪枝来加速解码，从而在保持翻译性能不变的情况下，将翻译加速了 1.8 倍。

Sep, 2018

神经机器翻译的覆盖率建模

本文提出基于 coverage 的 NMT 模型通过维护一个 coverage 向量来跟踪 Attention 历史信息，帮助调整未来 Attention，从而显著提高了传统 attention-based NMT 的翻译和对齐质量。

Jan, 2016

神经机器翻译编解码模型的校准

本文研究了几种基于注意力编码器 - 解码器模型的最新神经机器翻译 (NMT) 系统的校准。我们表明，大多数现代 NMT 模型即使在给定真正的先前标记的情况下，其校准水平也惊人地失准。探讨了失误的两个原因：EOS 和注意力不确定性的严重失校。基于这些信号，我们设计了重新校准方法，并展示了提高的准确性、更好的序列级校准和更直观的 beam-search 结果。

Mar, 2019

只需 5% 的注意力：高效的长距离文档级神经机器翻译

通过引入基于轻量级注意力的额外选择层，我们在保持翻译性能的同时加快了 20％的速度，能够实现将注意力仅集中在约 5％的令牌上，从而节省了 93％的计算成本。

Sep, 2023

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线 NMT 模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。

Aug, 2016