Mar, 2024

AtP*:一种将 LLM 行为局部化到组件的高效可伸缩方法

TL;DRActivation Patching 是一种直接计算行为因果归因于模型组件的方法,但全面应用需要成本与模型组件数量线性增加,对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching(AtP),这是一种基于梯度的快速近似方法,发现了两类 AtP 失败模式,会导致显著的假阴性。我们提出了 AtP * 的变体,通过两个改进解决了这些失败模式同时保持可扩展性。我们首次系统性地研究了 AtP 和其他更快的激活修补方法,并证明 AtP 明显优于所有其他研究方法,而 AtP * 提供了进一步显著的改进。最后,我们提供了一种限制 AtP * 估计的假阴性概率的方法。