评估解释的统一框架

May, 2024

Towards a Unified Framework for Evaluating Explanations

Juan D. Pinto, Luc Paquette

TL;DR评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。

Abstract

The challenge of creating interpretable models has been taken up by two main research communities: ML researchers primarily focused on lower-level explainability methods that suit the needs of engineers, and HCI researchers who have more heavily emphasized user-centered approaches ofte

interpretable models evaluation criteria explanation plausibility stability neural network

发现论文，激发创造

模型可解释性的人类评估的挑战与机遇

本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Nov, 2017

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

可解释性需要新范式

解释性是将模型以可理解的方式解释给人类的研究。目前，解释性分为两个范式：内在范式认为只有设计为可解释的模型才能解释，后处理范式认为黑盒模型也能解释。在这个辩论的核心是每个范式如何确保其解释是忠实的，即与模型行为一致。本文的立场是我们应该思考新的范式，同时保持警惕性。首先，通过研究科学中的范式历史，我们可以了解范式是不断发展的。然后，通过研究当前的范式，我们可以理解它们的基本信念、所带来的价值和限制。最后，本文提出了三个新兴的解释性范式。第一个范式是设计模型，使得忠实性易于衡量。另一个优化模型，使得解释性更加忠实。最后一个范式建议开发既能产生预测又能产生解释的模型。

May, 2024

有关模型可解释性的定量方面

本文针对机器学习中可解释性的问题进行了研究，提出了一组度量用于评估不同的可解释性方法，进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中，通过对不同的基准任务进行验证，并展示如何使用这些度量指导实践者选择最合适的方法，进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。

Jul, 2020

可解释机器学习中无基础真实性解释的评估

本文系统地定义了评估 interpretable machine learning 方法的问题，并全面回顾了现有工作。作者提出了三个方面的解释（即泛化性、准确性和说服性），并分别回顾了不同任务下的代表性方法，设计了一个统一的评估框架，用于实践中的不同场景。

Jul, 2019

AI 解释的解释

该论文关注机器学习中可解释性问题，侧重于简化模型的构建及不同形式的解释与说明，并探讨了机器学习在处理该问题时的广义视角。

Nov, 2018

有帮助、误导或使人困惑：人类如何感知人工智能解释的基本构建块

这篇论文探讨了可解释的人工智能技术和其评估方法之间的差距，介绍了使用简单的数学模型来评估不同模型表述的易理解程度，以及如何设置和执行相关用户研究的概念和实践框架。

Mar, 2023

可解释人工智能系统设计和评估的多学科调查和框架

本文旨在分享跨学科 XP 机器学习设计和评估方法的知识和经验，并提出了 XP 智能系统设计目标和评估方法的分类以支持 XP 研究的多样性设计目标和评估方法。我们为不同 XP 用户组的设计目标和其评估方法之间的映射提供了一个分类，以及一系列的设计指南和与之相对应的评估方法，从而关闭多学科 XP 团队的迭代设计和评估循环。

Nov, 2018

自解释神经网络的稳健可解释性研究

提出了自说明模型的三个特点 —— 显式性，忠诚度和稳定性，旨在落实模型可解释性并实现复杂模型的解释性，通过特定模型的正则化实现忠诚度和稳定性的要求，实验结果表明，该框架为解决模型的复杂性和可解释性困境提供了一个有前途的方向。

Jun, 2018

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023