特征去除是模型解释方法的统一原则

Nov, 2020

特征去除是模型解释方法的统一原则

Feature Removal Is a Unifying Principle for Model Explanation Methods

Ian Covert, Scott Lundberg, Su-In Lee

TL;DR本研究着眼于解释模型，提出一种基于特征删除的解释框架，包括 26 种方法（如 SHAP 和 LIME 等），揭示这些方法间的相似性，为选择和使用工具提供了有力支持，并且为进一步的可解释 AI 研究提供有益方向。

Abstract

Researchers have proposed a wide variety of model explanation approaches, but it remains unclear how most methods are related or when one method is preferable to another. We examine the literature and find that many methods are based on a shared principle of explaining by removing - es

model explanation removal-based explanations shap lime explainable ai

发现论文，激发创造

去除来解释：模型解释的统一框架

本文提出一类新的模型解释方法 - 基于删除的解释，并提出一个三个方面的框架来描述和统一 26 种已有的模型解释方法。通过这个分析，我们发展了一个统一的框架，帮助实践者更好地理解模型解释工具，并为未来的可解释性研究提供了坚实的理论基础。

Nov, 2020

传统机器学习模型解释方法比较第一部分：目前方法概述及其不一致性量化

这篇论文探讨了机器学习模型的可解释性和可解释性，特别是关于本地和全局可解释性以及特征重要性和相关性的方法，并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品；根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究，发现有关特征排名和特征效果的解释方法之间存在显着不一致，并提供建议来处理这些分歧；最后，建议在未来的研究中使用 tree interpreter 方法来探究特征效果。

Nov, 2022

特征重要性解释的可解释性与搜索方法中的越界问题

本篇研究提出了多维特征重要性（FI）解释的新方法，包括改进训练过程、比较不同特征移除方法、引入四种基于搜索的方法来识别 FI 解释。在六个文本分类数据集上的实验表明，引入的平行本地搜索（PLS）方法是唯一能够持续优于随机搜索的方法，FI 解释的改进也大幅提升了分类性能。

Jun, 2021

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

传统机器学习模型解释方法比较 Part 2：量化模型解释可信度及通过降维改善

本研究评估了多种特征排序方法的忠实度，并量化了限制相关特征对解释能力提高的影响，发现促进特征解释的方法在特征相关性降低后最具忠实度。

Nov, 2022

不要被蒙蔽：说明方法中的标签泄漏及其定量评估的重要性

本文介绍了共有十种 feature attribution 方法，其中七种是 class-dependent 方法，三种为 distribution-aware 方法，并在三个临床数据集上对其进行了评估，提出 SHAP-KL 和 FastSHAP-KL 两种分布感知的方法，计算 Shapley 值。

Feb, 2023

统一特征归属和反事实说明：不同的手段达成了相同的目的

通过真实因果关系框架提供一种将特征归因和反事实解释统一的解释方法，通过在 Adult-Income，LendingClub 和 German-Credit 三个基准数据集上的实验，发现 Feature attribution 方法和 counterfactual explanation 方法并不总是一致的，也表明了他们之间的互补性。

Nov, 2020

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021