评估可解释 AI：哪些算法解释有助于用户预测模型行为？

ACLMay, 2020

评估可解释 AI：哪些算法解释有助于用户预测模型行为？

Evaluating Explainable AI: Which Algorithmic Explanations Help Users Predict Model Behavior?

Peter Hase, Mohit Bansal

TL;DR本文研究机器学习模型的解释方法对模型可解释性方面的影响，通过两类涉及文本和表格数据的模拟测试，评估了五种解释方法的有效性，表明模型可模拟性在分类表格方面使用 LIME 可以得到改善，而我们的 Prototype 方法在反事实的模拟测试中也是有效的。本文的结果显示，我们需要对评估解释方法的指标进行谨慎处理，并且当前方法仍有很大的改进空间。

Abstract

Algorithmic approaches to interpreting machine learning models have proliferated in recent years. We carry out human subject tests that are the first of their kind to isolate the effect of algorithmic explanations

machine learning interpretability algorithmic explanations simulatability explanations influence

发现论文，激发创造

如何选择一个解释器？一个基于应用的后续解释评估

提出了一种名为 XAI Test 的应用基准评估方法，旨在评估不同水平的信息提供对最终决策的影响，针对现实世界的欺诈检测任务进行了实验，并使用多种统计方法分析了三种热门解释器的影响。

Jan, 2021

漏洞调整模拟能力：模型能否以自然语言生成其行为的非平凡解释？

本研究提出了一种新的评估自然语言生成模型的生成解释质量的方法，利用模型的 “可模拟性” 衡量生成的解释质量，并提供了多个案例研究以及优化生成解释质量的算法。

Oct, 2020

超越 LIME 的替代预测解释

本文提出一种算法框架 bLIMEy，用于构建定制的本地替代解释器，其中包括 LIME，该框架独立且可互操作，并讨论了组件选择对结果解释器功能能力的影响。

Oct, 2019

学习支架：优化模型解释以便教学

本文利用元学习技术，通过优化解释，使得学生模型更有效地学习模拟原始模型，探讨了提供解释的明确目标及其实现方法，在三个自然语言处理和计算机视觉任务中，通过人类注释和用户研究，发现我们提取的解释与人类解释更加贴近。

Apr, 2022

评估机器学习模型的本地可解释性

本文探讨了人们对计算机可解释性的两个定义，即可模拟性和 “what if” 局部解释性。其中，通过对 1000 名参与者进行用户研究，我们测试了人类是否能够在通常被认为是局部可解释的模型上模仿可模拟性和 “what if” 局部可解释性的定义，并发现运行时间操作计数与局部解释性任务的准确性呈负相关关系。此外，我们发现决策树和逻辑回归模型相比于神经网络模型，是更加容易被解释的模型。

Feb, 2019

评估模型解释在模型开发中的效用

通过用户研究，本研究评估了可解释人工智能在实际场景中对人类决策的改进效果，结果发现虽然解释有助于用户更准确地描述模型，但对于模型选择和反事实模拟这两个任务，并没有找到使用任何显著改进的证据，这表明对基于显著性的解释的实用性和可能的误解需要谨慎对待。

Dec, 2023

对解释的人类可解释性评估

研究探讨了通过对模拟响应、验证建议响应、确定建议响应的正确性并观察其输入变化等三项特定任务，来解释可解释的 AI 的互动可能。结果表明，特定的正则化可以用于优化可解释性，而一些共同点和设计原则也可能存在于解释的系统之间。我们的结果表明，认知块比变量重复更影响表现，并且这些趋势在任务和领域中保持一致。

Jan, 2019

无论何种模型：通过识别预测不变性的方式实现模型无关解释

在这项工作中，我们提出了一种名为 anchor-LIME（aLIME）的与模型无关的技术，该技术能够生成高精度、基于规则的解释，其覆盖边界非常清晰，并通过模拟实验比较了 aLIME 和线性 LIME，并从各种领域和任务的定性示例中展示了 aLIME 的灵活性。

Nov, 2016

为什么我应该信任你？": 解释任何分类器的预测

本文提出了一种可解释性的机器学习算法解释技术 ——LIME，基于该技术可以在一个可解释且可靠的小规模模型内对任何分类器的预测进行解释，从而提高了可信度和可理解性，实现了对于信任度的估计及诸多信任场景的适用性。

Feb, 2016

解释解释器：LIME 的首个理论分析

该文提供了 LIME 算法的首个理论分析，当函数为线性函数时，我们为可解释模型的系数导出了闭式表达式，其中这些系数与被解释函数的梯度成正比，但分析也揭示了 LIME 在选择参数不当时可能会错过重要的特征。

Jan, 2020