对Makelov等人(2023年)的“可解释性幻觉”论点的回应
在这项研究中,作者们使用基于众包的注释任务和心理物理学技术来评估可解释的计算机视觉算法的透明度质量,与没有人类参与的质量度量进行比较,并发现众包实验提供了一种稳健的质量评估方法。同时,文中提到在解释性方法排名、以及对人类是否有用方面,没有人类参与的质量度量与实际情况不符,为了获得对解释性的真实评估,应该在人类-机器学习交互的自然环境中进行评估。
Nov, 2019
本文介绍了深度神经网络的可解释性研究及其方法,指出目前的方法存在的局限和风险,并提出了以可证伪性为核心的新的研究框架,目的是为了产生更具意义和可靠的可解释性方法。
Oct, 2020
通过人类实验,我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策,这一结果挑战了应用这些方法的普遍好处的假定,在可解释的AI研究中人类评价的重要性下应该得到重视。
Dec, 2020
通过对BERT模型中的单个神经元激活的分析,我们揭示了一种“解释能力幻觉”,揭示了BERT的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实,我们提供了模型学习概念的分类,讨论了解释研究的方法论含义,特别是在多个数据集上测试假设的重要性。
Apr, 2021
分类研究了典型的基于部件的网络及其自解释特性,指出其相似度映射存在的空间解释错位问题,并提供了一种解决方法,通过实证研究验证了该方法的有效性。
Aug, 2023
对于局部模型无关解释的评估方法,以鲁棒性、基于合成数据集和可解释模型的地面真实性评估、模型随机化和人为评估为分类,本研究提出了一种新的评估分类方法并指出除了基于可解释模型的地面真实性评估外,其他评估方法都存在“责怪问题”。然而,即使是基于可解释模型的地面真实性评估方法仍存在一定的局限性,局部解释的评估仍然是一个未解决的研究问题。
Oct, 2023
机械性可解释性旨在通过特定的可解释特征来理解模型行为,最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而,我们证明了这两个目标是不同的,可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的值发生了变化,但这个效果可能是通过激活一个与模型输出因果断开的并行路径来实现的。我们在数学示例、两个真实领域(间接对象识别任务和事实回忆)中展示了这一现象,并呈现了实践中支持该现象普遍存在的证据。然而,这并不意味着亚空间激活干预在可解释性方面本质上不适用。为了将我们的发现置于背景中,我们还展示了在一项任务(间接对象识别)中的成功案例,其中以前的手动电路分析为理解特征的位置提供了信息。我们探讨了需要的额外证据来论证修补的亚空间是否忠实。
Nov, 2023
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
May, 2024
本研究针对深度学习模型的可解释性不足问题,提出基于认知科学的新视角。通过借鉴认知科学的发展,本文阐明了机械可解释性(MI)的目标并提出了一个新的分类法,以促进对深度学习模型的理解。研究表明,将行为研究与内部表示和算法的理解相结合,可以推动人工智能领域的理论进步和实践应用。
Aug, 2024