EMNLPMar, 2022
测量 Transformer 中上下文信息的混合
Measuring the Mixing of Contextual Information in the Transformer
Javier Ferrando, Gerard I. Gállego, Marta R. Costa-jussà
TL;DR该论文提出了一种名为 ALTI 的方法,通过考虑注意力模块(multi-head attention, residual connection and layer normalization)以及定义一种新的度量方法来测量各层之间的令牌交互,从而提供更准确的输入归因分数以解释模型预测,在实验中显示 ALTI 比基于梯度方法更好地提供了模型预测的解释,提高了模型的鲁棒性。