我们学会解释了吗？：可解释性方法如何在解释中学会编码预测

Mar, 2021

我们学会解释了吗？：可解释性方法如何在解释中学会编码预测

Have We Learned to Explain?: How Interpretability Methods Can Learn to Encode Predictions in their Interpretations

Neil Jethani, Mukund Sudarshan, Yindalon Aphinyanaphongs, Rajesh Ranganath

TL;DR介绍了一种名为 REAL-X 的时间差异化的解释方法，通过这种方法可以学习一个预测模型来近似任何输入子集的真实数据生成分布。

Abstract

While the need for interpretable machine learning has been established, many common approaches are slow, lack fidelity, or hard to evaluate. Amortized explanation methods reduce the cost of providing interpretations by learning a →

interpretable machine learning amortized explanation methods global selector model fidelity of interpretations eval-x

发现论文，激发创造

选择性解释

我们提出了一种选择性解释的特征归因方法，它检测出深度学习模型产生低质量解释的情况，并使用初始猜测解释技术改善这些解释，从而使实践者能够在提供初始猜测的解释之间进行选择，从而弥补了深度学习模型及其高质量对应物之间的差距。

May, 2024

可解释性作为统计推论

通过统计推断方法构建了一种概率模型，通过学习模型参数和使用神经网络选择器来实现解释性预测，并利用新数据集进行了实验验证，证明了使用多重插补提供了更合理的解释。

Dec, 2022

有关模型可解释性的定量方面

本文针对机器学习中可解释性的问题进行了研究，提出了一组度量用于评估不同的可解释性方法，进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中，通过对不同的基准任务进行验证，并展示如何使用这些度量指导实践者选择最合适的方法，进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。

Jul, 2020

线性模型的最优解释

提出了一种基于最优化的规则，将线性模型分解为不断增加复杂性的一系列模型，从而为线性模型创建解释，并派生出线性模型的参数化互操作性指标族，研究了解释性和预测准确性之间的权衡。

Jul, 2019

传统机器学习模型解释方法比较第一部分：目前方法概述及其不一致性量化

这篇论文探讨了机器学习模型的可解释性和可解释性，特别是关于本地和全局可解释性以及特征重要性和相关性的方法，并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品；根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究，发现有关特征排名和特征效果的解释方法之间存在显着不一致，并提供建议来处理这些分歧；最后，建议在未来的研究中使用 tree interpreter 方法来探究特征效果。

Nov, 2022

多类模型解释的加法逐实例方法

本论文提出了一种使用解释模型同时针对多个目标类别进行本地解释的框架，该模型具有更高的解释性和更紧凑的解释，通过广泛的实验验证了该模型具有选择稳定和重要特征的能力。

Jul, 2022

模型提取实现可解释性

这篇论文提出一种名为模型抽取的方法，通过构建一个可解释程度更高的模型来近似黑箱模型，从而理解和调试机器学习模型在各种数据集上训练的结果，并在经典强化学习问题中学习控制策略。

Jun, 2017

模型解释性与可解释性：朝着预测模型的透明度创造进发

在分析建模中，可解释人工智能（XAI）有一个对应的概念，我们称之为模型解释性。我们在预测模型的上下文中处理模型解释性问题，并通过执行和比较四种不同的预测方法，应用当前文献中所知的最佳解释技术来分析一家信用卡公司的贷款数据集，以确定特征重要性（FI）（静态案例），并最终在连续和分类变量的何种预测场景下交叉验证 FI 集合的准确性（动态案例）。我们发现了静态和动态案例之间 FI 识别的不一致性，并总结了模型解释性的最新进展，并建议进一步研究以推动该领域。

May, 2024

无论何种模型：通过识别预测不变性的方式实现模型无关解释

在这项工作中，我们提出了一种名为 anchor-LIME（aLIME）的与模型无关的技术，该技术能够生成高精度、基于规则的解释，其覆盖边界非常清晰，并通过模拟实验比较了 aLIME 和线性 LIME，并从各种领域和任务的定性示例中展示了 aLIME 的灵活性。

Nov, 2016

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020