Jan, 2023

AtMan: 通过内存高效的关注力操作理解 Transformer 的预测

TL;DR提出了一种类别不可知扰动方法 AtMan,通过操纵 Transformer 的注意力机制产生与输出预测相关的输入关联图,相较于背向传播方法更兼并且计算量更小,已在文本和图像文本基准测试中取得了优异的表现。