Mar, 2023

通过基于人类实验协议评估自我注意力的解释性

TL;DR本文提出了一种新的基于注意力机制的可解释性方法,通过计算 Transformer 模型中与分类任务相关部分的注意力系数分布来评估每个单词的可解释性得分,实验结果证明这种方法在提供解释方面与常规方法相当。研究还发现,自注意力可以包含丰富的信息来解释 Transformer 分类器。