Sep, 2021

Transformer NMT 中的注意力权重不能完全对齐序列中的单词,但在很大程度上解释了模型的预测

TL;DR本文提出了关于 Transformer 网络在神经机器翻译(NMT)领域的广泛分析,重点关注编码器 - 解码器注意机制,证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响,并证明了编码器 - 解码器注意机制作为 NMT 的可解释性方法。最后,基于我们的分析,我们提出了可以大大降低单词对齐错误率的方法,与从注意力权重中引导对齐的标准方法相比。