Mar, 2022
测量Transformer中上下文信息的混合
Measuring the Mixing of Contextual Information in the Transformer
TL;DR该论文提出了一种名为ALTI的方法,通过考虑注意力模块(multi-head attention, residual connection and layer normalization)以及定义一种新的度量方法来测量各层之间的令牌交互,从而提供更准确的输入归因分数以解释模型预测,在实验中显示ALTI比基于梯度方法更好地提供了模型预测的解释,提高了模型的鲁棒性。