模型可解释性的人类评估的挑战与机遇

NIPSNov, 2017

模型可解释性的人类评估的挑战与机遇

The Promise and Peril of Human Evaluation for Model Interpretability

Bernease Herman

TL;DR本文提出了 “描述性解释” 和 “说服性解释” 的区别，讨论了功能解释与认知功能和用户偏好可能相关的推理，并提出了两个研究方向来消除认知功能和解释模型之间的歧义，保持准确性和可解释性之间的权衡控制。

Abstract

Transparency, user trust, and human comprehension are popular ethical motivations for interpretable machine learning. In support of these goals, researchers evaluate model explanation performance using humans and

interpretable machine learning model explanation performance functional interpretability cognitive function user preferences

发现论文，激发创造

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

利用解释桥接人工智能和人类

该研究论文提出了解释性机器学习方法来提高人类决策水平和人工智能协助决策效能之间的差距。

Mar, 2020

评估解释的统一框架

评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。

May, 2024

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

模型解释性的神话

本文探讨了监督机器学习模型的解释能力，发现解释能力的动机与方法存在多样性和不一致性，因此提出了透明度与后期解释等多种方法，并怀疑线性模型易于解释而深度神经网络不易解释这一流行观点。

Jun, 2016

操纵与测量模型可解释性

在高风险领域中，机器学习模型已经被广泛用于辅助决策，而开发可解释的模型的兴趣逐渐增加。然而，是否这些模型能实现预期的效果，我们缺乏实验研究来证明。本研究开展了一系列预先注册的实验，展示了具有不同要素的模型，以调查它们的可解释性。结果表明，模型越透明、特征越少，参与者越能成功地模拟模型的预测，但是参与者并没有更加倾向于紧密关注其预测，而拥有透明的模型却使参与者因信息过载难以检测和修正模型的重大错误。这些结果强调了开发可解释模型时实验测试的重要性。

Feb, 2018

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

有关模型可解释性的定量方面

本文针对机器学习中可解释性的问题进行了研究，提出了一组度量用于评估不同的可解释性方法，进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中，通过对不同的基准任务进行验证，并展示如何使用这些度量指导实践者选择最合适的方法，进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。

Jul, 2020

有帮助、误导或使人困惑：人类如何感知人工智能解释的基本构建块

这篇论文探讨了可解释的人工智能技术和其评估方法之间的差距，介绍了使用简单的数学模型来评估不同模型表述的易理解程度，以及如何设置和执行相关用户研究的概念和实践框架。

Mar, 2023

一个解释并不能适用于所有情况：交互式解释对于机器学习透明度的承诺

通过交互式机器学习，将对比解释应用于黑盒机器学习系统，个性化调整其条件语句并通过提问 “What if？” 的方式提取更多解释，从而提高系统的透明度。

Jan, 2020