AAAIApr, 2020

自注意力归因:解释 Transformer 内部的信息交互

TL;DR本文提出了一种自我注意力归因方法,通过对 BERT 等模型进行广泛的研究,发现这种方法能够用于识别重要的注意力头,构建注意力树,揭示变压器内的分层交互,以及可用作敌对模式实现非定向攻击。