ACLMay, 2020

神经机器翻译的硬编码高斯注意力

TL;DR本论文探讨了 Transformer 的多头注意力对于实现高质量翻译的重要性,并基于此开发了一种无需任何学习参数的 ' 硬编码 ' 注意力变量。替换编码器和解码器中所有学习自注意力头部与固定、与输入无关的高斯分布最小程度影响四个不同语言对的 BLEU 得分,但额外硬编码交叉注意力 (将解码器与编码器连接) 会显著降低 BLEU,这提示它比自注意力更重要。通过在仅有一个基于硬编码 Transformer 中添加一个学习交叉注意头部可弥补大部分 BLEU 下降。综合结果揭示了 Transformer 的哪些组件实际上是重要的,这将有助于引导未来工作开发更简单、更高效的基于注意力的模型。