归因修补优于自动电路发现
Activation Patching 是一种直接计算行为因果归因于模型组件的方法,但全面应用需要成本与模型组件数量线性增加,对于 SoTA 大型语言模型来说成本过高。我们调查了 Attribution Patching(AtP),这是一种基于梯度的快速近似方法,发现了两类 AtP 失败模式,会导致显著的假阴性。我们提出了 AtP * 的变体,通过两个改进解决了这些失败模式同时保持可扩展性。我们首次系统性地研究了 AtP 和其他更快的激活修补方法,并证明 AtP 明显优于所有其他研究方法,而 AtP * 提供了进一步显著的改进。最后,我们提供了一种限制 AtP * 估计的假阴性概率的方法。
Mar, 2024
我们系统地研究了激活补丁技术的方法学细节,包括评估指标和数据污染方法,并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察,我们提出了为什么应该优先选择某些指标或方法的概念性论证,并最终对激活补丁技术提供了最佳实践建议。
Sep, 2023
激活修补是一种流行的机械解释技术,但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要,包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷阱。
Apr, 2024
本文介绍了一种名为 “路径修补” 的技术,通过该技术可以对神经网络的本地化行为进行量化测试,从而分析网络机制和可能的故障模式,并通过对 GPT-2 的行为进行表征来优化了归纳头的解释,并开源了一个运行类似实验的框架。
Apr, 2023
基于稀疏字典学习和机制解释性,提出了一种电路发现框架,用于从模型激活中提取更多人可理解的特征。该框架能够识别连接大量字典特征的电路,并在渐近复杂度方面具有更高的效率。在合成任务 Othello 的小型 Transformer 中,发现了许多人可理解的细粒度电路。
Feb, 2024
通过引入 EAP-IG 方法,本文旨在更好地保持电路的核心属性:忠诚度。我们的实验证明,使用 EAP 找到的电路比使用 EAP-IG 找到的电路更不忠诚,尽管两者在与之前使用因果干预发现的电路的节点重叠方面都很高。总之,在使用电路来比较模型解决任务的机制时,应该衡量忠诚度而不是重叠程度。
Mar, 2024
本文提出了一种名为 Automatic Circuit DisCovery (ACDC) 的算法,用于自动识别网络中的重要单元,通过在神经网络进行数据集、指标和单元的研究,可理解每个神经网络区域的功能及其组成的电路。
Apr, 2023
本文介绍了 AutoPatch,将神经架构搜索应用到分割视觉异常的复杂任务中。提出了加权平均精度(wAP)作为替代 AUROC 和 AUPRO 的度量标准,并提出了一种新的神经架构搜索方法,能够在没有任何训练的情况下高效地进行视觉异常分割。在 MVTec 数据集上,AutoPatch 优于当前最先进的方法 PatchCore,仅使用每个异常类型的一个样本的条件下,FLOPS 少 18 倍以上。
Apr, 2023
该研究提出了一种算法,可以分析深度神经网络,找到对网络分类结果 “重要” 的神经元,并自动标记激活这些重要神经元的输入图像部分,进而揭示网络分解图像进行最终分类的过程。
Feb, 2018