LIME 和 SHAP 欺骗：对事后解释方法的对抗攻击

Nov, 2019

LIME 和 SHAP 欺骗：对事后解释方法的对抗攻击

Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods

Dylan Slack, Sophie Hilgard, Emily Jia, Sameer Singh, Himabindu Lakkaraju

TL;DR本文提出一种新型的脚手架技术可以隐藏任何给定分类器的偏见，并演示了该技术如何可以欺骗常见的解释技术如 LIME 和 SHAP 生成无害的解释而不反映潜在的偏见。

Abstract

As machine learning black boxes are increasingly being deployed in domains such as healthcare and criminal justice, there is growing emphasis on building tools and techniques for explaining these →

machine learning black boxes explanation techniques biases scaffolding technique

发现论文，激发创造

非欺骗性基于扰动的事后解释器

本文研究如何对黑盒人工智能系统进行可解释性分析，提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击，并使用 KNN-CAD 来进行条件异常值检测，实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。

May, 2022

事后 XAI 方法中的可预测性与可理解性：用户中心分析

评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性，发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外，发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果，提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。

Sep, 2023

可靠的事后解释：解释性中的不确定性建模

本文提出了基于贝叶斯框架的黑盒模型解释方法，能够生成可靠的局部解释和其关联的不确定性，并且具有稳定性和高度一致性，可以快速地解决几个重要问题。通过实证研究，证明了该方法的有效性，并提高了解释的可靠性。

Aug, 2020

S-LIME: 模型解释的稳定化 LIME

研究黑盒机器学习模型的解释方法，提出一种基于中心极限定理的假设测试框架方法，名为 S-LIME，以保证解释结果的稳定性，实验结果在模拟和真实数据集上表明该方法的有效性。

Jun, 2021

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

黑匣子 NLP 模型的解释：一项调查

本文提出了一种基于中心极限定理的假设检验框架以确定所需扰动点的数量，从而保障解释稳定性的方法 S-LIME，以解决黑箱模型的可解释性问题。对模拟数据集和实际数据集进行的实验表明了该方法的有效性。

Mar, 2022

可解释人工智能方法评论：SHAP 和 LIME

这篇论文探讨解释的可解释人工智能（XAI）方法，特别是 SHapley 加性解释和局部可解释模型无关解释等两种使用广泛的方法，提出一个框架来解释它们的输出，强调它们的优缺点。

May, 2023

关于扰动和梯度解释的统一和鲁棒性

研究了两种流行的机器学习解释技术：基于梯度的 SmoothGrad 方法和一种基于扰动的 LIME 方法，并通过数学推导证明它们在期望上产生相同的解释。通过在合成和真实世界数据集上进行广泛实验验证了理论模型。

Feb, 2021

如何选择一个解释器？一个基于应用的后续解释评估

提出了一种名为 XAI Test 的应用基准评估方法，旨在评估不同水平的信息提供对最终决策的影响，针对现实世界的欺诈检测任务进行了实验，并使用多种统计方法分析了三种热门解释器的影响。

Jan, 2021

透过逐层邻居选择来增强稳定性的 SHAP 形态塑造

这篇论文研究了机器学习技术中局部后解释性方法的不稳定性问题，提出了通过改进确定邻居选取的方法以解决不稳定性问题，同时通过限制邻居生成的扰动范围得到了一种全新的特征归因方法。

Dec, 2023