May, 2020

变形金刚中的注意力流量量化

TL;DR本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重,以解决在 Transformer 模型中,由不同令牌产生不同的信息流动混合,使得注意力权重不可靠作为解释探针的问题。与原始注意力相比,这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。