如何使用和解读激活修补

Apr, 2024

How to use and interpret activation patching

Stefan Heimersheim, Neel Nanda

TL;DR激活修补是一种流行的机械解释技术，但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要，包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷阱。

Abstract

activation patching is a popular mechanistic interpretability technique, but has many subtleties regarding how it is applied and how one may interpret the results. We provide a summary of advice and →

activation patching interpretability technique best practices evidence patching experiments circuits

发现论文，激发创造

语言模型激活修复的最佳实践：度量与方法

我们系统地研究了激活补丁技术的方法学细节，包括评估指标和数据污染方法，并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察，我们提出了为什么应该优先选择某些指标或方法的概念性论证，并最终对激活补丁技术提供了最佳实践建议。

Sep, 2023

归因修补优于自动电路发现

通过应用基于归因修补的简单方法来剔除神经网络中最不重要的边缘，我们的研究比现有方法在电路恢复方面具有更高的 AUC。

Oct, 2023

寻找的子空间是否是这个？子空间激活修补的可解释性幻觉

机械性可解释性旨在通过特定的可解释特征来理解模型行为，最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而，我们证明了这两个目标是不同的，可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化，但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域（间接对象识别任务和事实回忆）中展示了这一现象，并呈现了实践中支持该现象普遍存在的证据。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中，我们还展示了在一项任务（间接对象识别）中的成功案例，其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。

Nov, 2023

AtP*：一种将 LLM 行为局部化到组件的高效可伸缩方法

Activation Patching 是一种直接计算行为因果归因于模型组件的方法，但全面应用需要成本与模型组件数量线性增加，对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching（AtP），这是一种基于梯度的快速近似方法，发现了两类 AtP 失败模式，会导致显著的假阴性。我们提出了 AtP * 的变体，通过两个改进解决了这些失败模式同时保持可扩展性。我们首次系统性地研究了 AtP 和其他更快的激活修补方法，并证明 AtP 明显优于所有其他研究方法，而 AtP * 提供了进一步显著的改进。最后，我们提供了一种限制 AtP * 估计的假阴性概率的方法。

Mar, 2024

路径修补定位模型行为

本文介绍了一种名为 “路径修补” 的技术，通过该技术可以对神经网络的本地化行为进行量化测试，从而分析网络机制和可能的故障模式，并通过对 GPT-2 的行为进行表征来优化了归纳头的解释，并开源了一个运行类似实验的框架。

Apr, 2023

字典学习改善机械解释性中无补丁电路发现：以奥赛罗 - GPT 为例

基于稀疏字典学习和机制解释性，提出了一种电路发现框架，用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路，并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中，发现了许多人可理解的细粒度电路。

Feb, 2024

变压器激活空间分析中的可解释性：重点调查

该研究论文探讨自然语言处理领域的可解释性方法，重点关注 transformer 中前馈层激活空间（Activation Space），旨在加强该领域的研究。

Jan, 2023

神经激活模式（NAPs）：学习概念的视觉可解释性

通过提取神经网络层中高维激活空间内相似的激活特点，我们找到了一些被对待相似的输入群体，这些输入群体代表神经激活模式 (NAPs)，并可用于可视化和解释学习层概念，从而实现了神经网络的分析方法的互补。

Jun, 2022

重新审视基于类激活映射的可解释性评估：一种新的度量和实验分析

本文提出了一种新的指标来量化解释性映射，以提高 Class Activation Mapping (CAM) 方法的评估和重现，通过比较不同基于 CAM 的可视化方法来证明这种新指标的适用性。

Apr, 2021

使用 APPLE 解析卷积神经网络：自动补丁模式标记

该研究提出了一种算法，可以分析深度神经网络，找到对网络分类结果 “重要” 的神经元，并自动标记激活这些重要神经元的输入图像部分，进而揭示网络分解图像进行最终分类的过程。

Feb, 2018