以信为本：在寻找模型机制时超越电路重叠

Mar, 2024

以信为本：在寻找模型机制时超越电路重叠

Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms

Michael Hanna, Sandro Pezzelle, Yonatan Belinkov

TL;DR通过引入 EAP-IG 方法，本文旨在更好地保持电路的核心属性：忠诚度。我们的实验证明，使用 EAP 找到的电路比使用 EAP-IG 找到的电路更不忠诚，尽管两者在与之前使用因果干预发现的电路的节点重叠方面都很高。总之，在使用电路来比较模型解决任务的机制时，应该衡量忠诚度而不是重叠程度。

Abstract

Many recent language model (LM) interpretability studies have adopted the circuits framework, which aims to find the minimal computational subgraph, or circuit, that explains LM behavior on a given task. Most studies determine which edges belong in a LM's circuit by performing causal i

language model interpretability circuits framework edge attribution patching faithfulness model performance

发现论文，激发创造

归因修补优于自动电路发现

通过应用基于归因修补的简单方法来剔除神经网络中最不重要的边缘，我们的研究比现有方法在电路恢复方面具有更高的 AUC。

Oct, 2023

在忠实性下学习 AMP 链图及其部分边缘模型：扩展版本

本文研究了 Andersson-Madigan-Perlman（AMP）解释下的链图模型，并提出了一种基于约束的算法用于学习一个 FAITHFUL 到给定概率分布的 AMP 链图。此外，还介绍了一种名为最大协方差 - 浓度图（MCCG）的新型图模型，研究了 MCCG 的全局、局部和成对 Markov 特性，并证明它们的等效性，最后，提出了一种用于从 MCCG 中读取概率分布依赖关系的图形准则。

Mar, 2013

边缘修剪中的 Transformer 电路寻找

自动电路发现的一种有效且可扩展的解决方案是基于优化问题的边缘修剪，该方法在 GPT-2 模型中找到使用少于一半边缘的电路，并与之前的方法在速度和质量上表现出优势。

Jun, 2024

忠诚与可信性是否相冲突？在自然语言处理任务中的可解释人工智能的经验研究

通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较，我们的研究表明，传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性，与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向，以实现准确度和用户可理解性的双重提高。

Mar, 2024

基于 ASP 的半马尔科夫因果模型发现算法在较弱假设下的应用

研究了自动因果发现中所谓的忠实性假设的可能性和弱化，发现可以在重要意义上保留其功能的各种方式，并且弱化忠实性可以帮助加速基于答案集编程的方法。此外，本文还探讨了半马尔可夫因果模型的基于约束的发现中忠实性的弱化，发现在这种更现实的情况下保持了（1）和（2）的情况，并考虑到了潜变量的可能性。

Jun, 2019

通过能量限制的符合性反事实来解释忠实模型

提出了一种新的算法框架，通过整合基于能量的建模和符合预测的最新进展，生成仅符合模型要求的以可信度分析为目标的柔性反事实解释。

Dec, 2023

串联思维不忠诚的伪装准确性

理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。在评估模型大小与忠实度的关系时，我们发现存在着一种扩大然后逆向缩小的关系，而 130 亿参数模型比其大小范围在 8.1 亿到 1750 亿参数的模型表现出更高的忠实度。然而，我们还发现仅仅改变提示中答案选择的顺序就能将该度量缩小 73 百分点。该忠实度度量与准确性也高度相关（$R^2=0.91$），这对于评估忠实度的有效性产生了疑虑。

Feb, 2024

深度图模型的忠实解释

本文研究了图神经网络（GNNs）的可信解释，并提供一种全新的通用方法来形式化描述 GNNs 的可信解释，包括特征归因和子图解释。作者提出的 KEC 方法从图的结构和其 k 次幂得到信息，可以最大程度地提高生成解释的准确性以及说明原始 GNN 的预测结果，同时弥补了子图解释和特征归因方法的缺陷。经过作者使用多种合成和真实数据集的分类和异常检测任务的实验证明，该方法是有效的。

May, 2022

使用线性计算图自动识别局部和全局电路

采用稀疏自编码器（SAEs）和跳跃 SAEs 为基础，引入电路发现流程，使用 Hierarchical Attribution 方法对于 GPT2-Small 模型分析了三种电路类型（括号电路、归纳电路和间接对象识别电路），揭示了现有发现之下的新发现。

May, 2024

在 Transformer 语言模型中的电路组件重用

通过电路分析，揭示了语言模型中行为的机制性可解释性。证明了观察的洞见既适用于特定任务的发现，也适用于一般算法的发现，并通过调整注意头以修复电路来证明了这一过程的相似性。结果表明，大型语言模型的行为可以通过一些可解释的任务通用算法构建模块和计算组件来解释。

Oct, 2023