ASTERYX：基于 SAT 的模型无关符号和得分说明方法

Jun, 2022

ASTERYX：基于 SAT 的模型无关符号和得分说明方法

ASTERYX : A model-Agnostic SaT-basEd appRoach for sYmbolic and score-based eXplanations

Ryma Boumazouza, Fahima Cheikh-Alili, Bertrand Mazure, Karim Tabia

TL;DR本文提出一种基于符号和数量特征的解释性人工智能方法 ASTERYX，其可用于解释复杂的机器学习模型。ASTERYX 还可以生成符号化解释和基于分数的解释，以量化特征在预测中的贡献，进而提供符号化和基于分数的解释。实验结果证明，该方法具有可行性且有效。

Abstract

The ever increasing complexity of machine learning techniques used more and more in practice, gives rise to the need to explain the predictions and decisions of these models, often used as black-boxes.

explainable ai machine learning symbolic explanations predictions counterfactuals

发现论文，激发创造

基于模型无关的 SAT 方法的符号解释枚举

文章提出一种基于模型不可知和 SAT 的方法生成符号解释，实验结果表明该方法可以提供充分原因和反事实解释。

Jun, 2022

Greybox XAI: 一种神经符号学习框架，用于生成可解释的图像分类预测

通过形式化说明解释是什么，提出一些公理和定义来澄清可解释的人工智能的数学角度。最后，我们提出了一个 Greybox XAI 框架，该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库，并使用它来训练透明模型（即逻辑回归）。然后，我们在 RGB 图像上训练编码器 - 解码器架构，以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后，它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。

Sep, 2022

一种公理化的无关模型概念解释方法

本研究提出了一种满足线性性、递归性和相似性三个重要公理的模型无关的概念解释方法，并与先前的概念解释方法建立了联系，实验证明了该方法在模型选择、优化器选择和使用一种启发式编辑方法改进零样本视觉语言模型方面的实用性。

Jan, 2024

基于绑架的机器学习模型解释

本论文提出了一种无约束解决方案，利用归纳推理计算任何机器学习模型的解释，验证了所提出方法的可伸缩性和计算出的解释的质量。

Nov, 2018

CLIMAX：分类器基于对比解释的探索

本文提出了一种名为 CLIMAX 的后操作模型无关 XAI 技术，它提供了对黑盒分类器分类的对比解释以及为什么其他类别未被预测的理由。

Jul, 2023

任务无关的可解释人工智能是否是一种神话？

本文提出了一个框架来统一解释人工智能（XAI）领域的挑战。尽管 XAI 方法可以为机器学习模型提供有用的输出，但研究人员和决策者需要注意这些方法的概念和技术限制，这些限制通常导致这些方法本身变成黑匣子。作者使用图像、文本和图形数据，研究了涉及突出显示、关注和图形解释器的三种 XAI 研究途径。尽管这些案例的背景和时间跨度各不相同，但是同样的持续困难仍然出现，这凸显了在此领域要应对 XAI 方法和应用任务之间兼容性挑战的概念突破的必要性。

Jul, 2023

T-Explainer: 基於梯度的模型无关解释性框架

可解释人工智能（Explainable Artificial Intelligence）通过提供准确、一致且稳定的解释，解决机器学习中黑盒模型的透明度问题，其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。

Apr, 2024

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024

防御对解释的篡改

本文提出了一种新的训练方案 —— 用对抗训练解释，以提高模型对不同解释方法的内部解释稳定性，并在实验中展示了它的有效性，包括提高对抗训练的效果和平滑解释，此外还发现解释稳定性与对抗攻击风险息息相关。

Nov, 2021

CALIME：基于因果关系的本地可解释模型无关解释

本篇论文提出一种新颖的扩展方法，将因果关系显式编码进生成输入实例的数据以解释增加信任度和帮助用户评估解释质量的 XAI 方法，并通过实验表明该方法对于拟合黑匣子和解释稳定性均达到了比初始方法更优越的表现。

Dec, 2022