SIGIRJul, 2019

Transformer 注意力头对抽象摘要提供透明度吗?

TL;DR通过分析 transformer 中 attention heads 的分布,我们探讨了并提出一种方法来评估 Transformer 模型特定 attention distributions 的依赖程度,从而讨论了使用注意分布作为可解释性手段的含义。在某些 attention heads 确实专门用于句法和语义不同的输入的基础上,我们提出了一种贡献方式,以提高其可解释性,这对于所有 NLP 任务是否有效等进行了讨论。