对Makelov等人（2023年）的“可解释性幻觉”论点的回应

Jan, 2024

对Makelov等人（2023年）的“可解释性幻觉”论点的回应

A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments

Zhengxuan Wu, Atticus Geiger, Jing Huang, Aryaman Arora, Thomas Icard...

TL;DR论文讨论了Makelov等人关于子空间交换干预方法以及其可能引起的“解释性幻觉”的论点，并指出认为这些所谓的幻觉是由于其训练和评估模式引起的，然后强调Makelov等人的例子和讨论无疑推动了解释性领域的发展。

Abstract

We respond to the recent paper by Makelov et al. (2023), which reviews subspace interchange intervention methods like distributed alignment search (das; Geiger et al. 2023) and claims that these methods potential

发现论文，激发创造

量化比较可解释计算机视觉模型的心理物理学方法

在这项研究中，作者们使用基于众包的注释任务和心理物理学技术来评估可解释的计算机视觉算法的透明度质量，与没有人类参与的质量度量进行比较，并发现众包实验提供了一种稳健的质量评估方法。同时，文中提到在解释性方法排名、以及对人类是否有用方面，没有人类参与的质量度量与实际情况不符，为了获得对解释性的真实评估，应该在人类-机器学习交互的自然环境中进行评估。

Nov, 2019

关于可证实解释性研究的探索

本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。

Oct, 2020

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的AI研究中人类评价的重要性下应该得到重视。

Dec, 2020

BERT的可解释性幻觉

通过对BERT模型中的单个神经元激活的分析，我们揭示了一种“解释能力幻觉”，揭示了BERT的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实，我们提供了模型学习概念的分类，讨论了解释研究的方法论含义，特别是在多个数据集上测试假设的重要性。

Apr, 2021

解释性的心理学理论

研究人员提出了一种心理学理论，解释了人们如何从显著性图中得出结论，为XAI中的精确预测和验证提供了理论依据，并进行了一项用户研究以验证该理论。

May, 2022

评估原型部分解释的空间不对齐的可解释性基准

分类研究了典型的基于部件的网络及其自解释特性，指出其相似度映射存在的空间解释错位问题，并提供了一种解决方法，通过实证研究验证了该方法的有效性。

Aug, 2023

评估本地解释中的归咎问题及其解决方法

对于局部模型无关解释的评估方法，以鲁棒性、基于合成数据集和可解释模型的地面真实性评估、模型随机化和人为评估为分类，本研究提出了一种新的评估分类方法并指出除了基于可解释模型的地面真实性评估外，其他评估方法都存在“责怪问题”。然而，即使是基于可解释模型的地面真实性评估方法仍存在一定的局限性，局部解释的评估仍然是一个未解决的研究问题。

Oct, 2023

寻找的子空间是否是这个？子空间激活修补的可解释性幻觉

机械性可解释性旨在通过特定的可解释特征来理解模型行为，最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而，我们证明了这两个目标是不同的，可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化，但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域（间接对象识别任务和事实回忆）中展示了这一现象，并呈现了实践中支持该现象普遍存在的证据。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中，我们还展示了在一项任务（间接对象识别）中的成功案例，其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。

Nov, 2023

评估解释的统一框架

评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。

May, 2024

可解释性中的认知革命：从解释行为到解释表示与算法

本研究针对深度学习模型的可解释性不足问题，提出基于认知科学的新视角。通过借鉴认知科学的发展，本文阐明了机械可解释性（MI）的目标并提出了一个新的分类法，以促进对深度学习模型的理解。研究表明，将行为研究与内部表示和算法的理解相结合，可以推动人工智能领域的理论进步和实践应用。

Aug, 2024