寻找的子空间是否是这个？子空间激活修补的可解释性幻觉

Nov, 2023

寻找的子空间是否是这个？子空间激活修补的可解释性幻觉

Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching

Aleksandar Makelov, Georg Lange, Neel Nanda

TL;DR机械性可解释性旨在通过特定的可解释特征来理解模型行为，最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而，我们证明了这两个目标是不同的，可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化，但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域（间接对象识别任务和事实回忆）中展示了这一现象，并呈现了实践中支持该现象普遍存在的证据。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中，我们还展示了在一项任务（间接对象识别）中的成功案例，其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。

Abstract

mechanistic interpretability aims to understand model behaviors in terms of specific, interpretable features, often hypothesized to manifest as low-dimensional subspaces of activations. Specifically, recent studies have explored →

发现论文，激发创造

何时何地？考察可解释的分解表示

本文提出了一种基于解释性的无人监督学习方法来实现抽象表征，该方法可以通过学习空间遮罩、引入扰动和无人监督模型选择来学习高质量的分解表示。

Apr, 2021

特征可视化有助于理解CNN激活的因果关系吗?

在解释性人工智能方面，通过激活最大化可视化单元响应是一种被广泛应用的方法，而此研究测试了此方法是否能有效的帮助人们预测激活单元的变化，结果表明其在一定程度上有帮助，但并没有明显优势。

Jun, 2021

本地化是否对编辑有启示？基于因果关系的本地化和语言模型的知识编辑存在惊人的差异

本文使用编辑方法修改不同于常规建议的模型权重的事实存储位置，表明表示去噪结论不提供任何关于在哪个中间层最好进行编辑的信息，而编辑的性能更能预测修改结果。

Jan, 2023

变压器激活空间分析中的可解释性：重点调查

该研究论文探讨自然语言处理领域的可解释性方法，重点关注transformer中前馈层激活空间（Activation Space），旨在加强该领域的研究。

Jan, 2023

使用多路径归因映射改善解释独立表示

该论文提出了一个框架，利用可解释的分离表示来进行下游任务预测，并通过可视化分离表示来加强和验证解释，从而在卫生保健的临床诊断中降低由于因果关系错误而导致的危险选择和提高模型的鲁棒性。

Jun, 2023

语言模型激活修复的最佳实践：度量与方法

我们系统地研究了激活补丁技术的方法学细节，包括评估指标和数据污染方法，并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察，我们提出了为什么应该优先选择某些指标或方法的概念性论证，并最终对激活补丁技术提供了最佳实践建议。

Sep, 2023

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

利用信息论探测套件，我们分析了9项任务，涵盖语法、语义和推理，在2百万次预训练步骤和5个种子中，识别了关键学习阶段，语法知识在全面训练的0.5%后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Oct, 2023

对Makelov等人（2023年）的“可解释性幻觉”论点的回应

论文讨论了Makelov等人关于子空间交换干预方法以及其可能引起的“解释性幻觉”的论点，并指出认为这些所谓的幻觉是由于其训练和评估模式引起的，然后强调Makelov等人的例子和讨论无疑推动了解释性领域的发展。

Jan, 2024

理解概念激活向量：解释可解释性

使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了Concept Activation Vectors (CAVs)的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的CAVs来测试模型在特定概念和类别上是否具有平移不变性。我们在ImageNet和一个新的合成数据集Elements上进行实验。Elements旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Apr, 2024

寻找合适的中介者：因果可解释性的历史、调查与理论基础

本研究针对当前因果可解释性领域中缺乏统一理论基础的问题，提出将因果中介分析作为研究框架。研究中明确了不同类型中介者的优缺点，提出发现新型中介者的必要性，并倡导更标准化的评估方法，以便于不同中介者在特定应用中的比较和选择，进而推动领域的进展。

Aug, 2024