如何使用和解读激活修补
我们系统地研究了激活补丁技术的方法学细节,包括评估指标和数据污染方法,并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察,我们提出了为什么应该优先选择某些指标或方法的概念性论证,并最终对激活补丁技术提供了最佳实践建议。
Sep, 2023
机械性可解释性旨在通过特定的可解释特征来理解模型行为,最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而,我们证明了这两个目标是不同的,可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化,但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域(间接对象识别任务和事实回忆)中展示了这一现象,并呈现了实践中支持该现象普遍存在的证据。然而,这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中,我们还展示了在一项任务(间接对象识别)中的成功案例,其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。
Nov, 2023
Activation Patching 是一种直接计算行为因果归因于模型组件的方法,但全面应用需要成本与模型组件数量线性增加,对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching(AtP),这是一种基于梯度的快速近似方法,发现了两类 AtP 失败模式,会导致显著的假阴性。我们提出了 AtP * 的变体,通过两个改进解决了这些失败模式同时保持可扩展性。我们首次系统性地研究了 AtP 和其他更快的激活修补方法,并证明 AtP 明显优于所有其他研究方法,而 AtP * 提供了进一步显著的改进。最后,我们提供了一种限制 AtP * 估计的假阴性概率的方法。
Mar, 2024
本文介绍了一种名为 “路径修补” 的技术,通过该技术可以对神经网络的本地化行为进行量化测试,从而分析网络机制和可能的故障模式,并通过对 GPT-2 的行为进行表征来优化了归纳头的解释,并开源了一个运行类似实验的框架。
Apr, 2023
基于稀疏字典学习和机制解释性,提出了一种电路发现框架,用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路,并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中,发现了许多人可理解的细粒度电路。
Feb, 2024
该研究论文探讨自然语言处理领域的可解释性方法,重点关注 transformer 中前馈层激活空间(Activation Space),旨在加强该领域的研究。
Jan, 2023
通过提取神经网络层中高维激活空间内相似的激活特点,我们找到了一些被对待相似的输入群体,这些输入群体代表神经激活模式 (NAPs),并可用于可视化和解释学习层概念,从而实现了神经网络的分析方法的互补。
Jun, 2022
本文提出了一种新的指标来量化解释性映射,以提高 Class Activation Mapping (CAM) 方法的评估和重现,通过比较不同基于 CAM 的可视化方法来证明这种新指标的适用性。
Apr, 2021
该研究提出了一种算法,可以分析深度神经网络,找到对网络分类结果 “重要” 的神经元,并自动标记激活这些重要神经元的输入图像部分,进而揭示网络分解图像进行最终分类的过程。
Feb, 2018