去除来解释：模型解释的统一框架

Nov, 2020

去除来解释：模型解释的统一框架

Explaining by Removing: A Unified Framework for Model Explanation

Ian Covert, Scott Lundberg, Su-In Lee

TL;DR本文提出一类新的模型解释方法 - 基于删除的解释，并提出一个三个方面的框架来描述和统一 26 种已有的模型解释方法。通过这个分析，我们发展了一个统一的框架，帮助实践者更好地理解模型解释工具，并为未来的可解释性研究提供了坚实的理论基础。

Abstract

Researchers have proposed a wide variety of model explanation approaches, but it remains unclear how most methods are related or when one method is preferable to another. We describe a new unified class of methods, remo

model explanation removal-based explanations simulating feature removal framework information-theoretic interpretations

发现论文，激发创造

特征去除是模型解释方法的统一原则

本研究着眼于解释模型，提出一种基于特征删除的解释框架，包括 26 种方法（如 SHAP 和 LIME 等），揭示这些方法间的相似性，为选择和使用工具提供了有力支持，并且为进一步的可解释 AI 研究提供有益方向。

Nov, 2020

传统机器学习模型解释方法比较第一部分：目前方法概述及其不一致性量化

这篇论文探讨了机器学习模型的可解释性和可解释性，特别是关于本地和全局可解释性以及特征重要性和相关性的方法，并提供了一个完整的 Python 软件包来允许未来的研究人员探索这些产品；根据对严重天气预测和亚冰点路面温度预测的 ML 模型开发的研究，发现有关特征排名和特征效果的解释方法之间存在显着不一致，并提供建议来处理这些分歧；最后，建议在未来的研究中使用 tree interpreter 方法来探究特征效果。

Nov, 2022

统一特征归属和反事实说明：不同的手段达成了相同的目的

通过真实因果关系框架提供一种将特征归因和反事实解释统一的解释方法，通过在 Adult-Income，LendingClub 和 German-Credit 三个基准数据集上的实验，发现 Feature attribution 方法和 counterfactual explanation 方法并不总是一致的，也表明了他们之间的互补性。

Nov, 2020

局部无关视频解释：基于移除的解释在视频中的适用性研究

本文提出了一个针对视频领域的统一框架，旨在在维持高学习性能的同时，通过融合时序信息和实现局部解释，扩展针对计算机视觉数据的细粒度解释框架，并将六种现有的解释技术应用于视频数据，进行了评估和比较研究。研究结果表明，3D RISE、3D LIME 和 3D Kernel SHAP 优于其他方法。通过将解释过程分解为可管理的步骤，我们便于研究每个选择的影响，并进一步改进解释方法以适应特定的数据集和模型。

Jan, 2024

特征重要性解释的可解释性与搜索方法中的越界问题

本篇研究提出了多维特征重要性（FI）解释的新方法，包括改进训练过程、比较不同特征移除方法、引入四种基于搜索的方法来识别 FI 解释。在六个文本分类数据集上的实验表明，引入的平行本地搜索（PLS）方法是唯一能够持续优于随机搜索的方法，FI 解释的改进也大幅提升了分类性能。

Jun, 2021

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

可靠的事后解释：解释性中的不确定性建模

本文提出了基于贝叶斯框架的黑盒模型解释方法，能够生成可靠的局部解释和其关联的不确定性，并且具有稳定性和高度一致性，可以快速地解决几个重要问题。通过实证研究，证明了该方法的有效性，并提高了解释的可靠性。

Aug, 2020