非欺骗性基于扰动的事后解释器

AAAIMay, 2022

Unfooling Perturbation-Based Post Hoc Explainers

Zachariah Carmichael, Walter J Scheirer

TL;DR本文研究如何对黑盒人工智能系统进行可解释性分析，提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击，并使用 KNN-CAD 来进行条件异常值检测，实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。

Abstract

Monumental advancements in artificial intelligence (AI) have lured the interest of doctors, lenders, judges, and other professionals. While these high-stakes decision-makers are optimistic about the technology, those familiar with AI systems are wary about the lack of transparency of i

artificial intelligence explainability adversarial attacks anomaly detection defense

发现论文，激发创造

LIME 和 SHAP 欺骗：对事后解释方法的对抗攻击

本文提出一种新型的脚手架技术可以隐藏任何给定分类器的偏见，并演示了该技术如何可以欺骗常见的解释技术如 LIME 和 SHAP 生成无害的解释而不反映潜在的偏见。

Nov, 2019

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

关于扰动和梯度解释的统一和鲁棒性

研究了两种流行的机器学习解释技术：基于梯度的 SmoothGrad 方法和一种基于扰动的 LIME 方法，并通过数学推导证明它们在期望上产生相同的解释。通过在合成和真实世界数据集上进行广泛实验验证了理论模型。

Feb, 2021

消除不可能，剩下的必然是真实的

研究使用背景知识使得可解释的人工智能更简洁易懂，并使用现有的规则归纳技术从数据集中提取背景信息来做出预测并报告使用的背景信息，帮助人类检查解释的正确性。

Jun, 2022

来自反事实解释的模型提取

本文介绍了后验方法中计数事实解释作为黑盒机器学习模型的后解释技术中越来越受欢迎的方法，但使用该方法泄露了与模型相关的信息，攻击者可以建立一个忠实副本。通过在真实世界数据集上进行评估，我们证明了该攻击可以在低查询预算下实现高保真度和高准确度的模型提取，进而引出了隐私问题。

Sep, 2020

后验解释在对抗场景下无法达到其目的

本研究探讨了机器学习算法透明化的法律、哲学和技术方面，指出后评估阶段的解释算法在对抗情况下无法实现透明化目标，并呼吁更多关于透明化机制的讨论。

Jan, 2022

即使解释：正式基础、优先级和复杂性

对于可解释人工智能的半事实即使思考的局部事后解释性查询进行了研究，比较了不同类别的模型的计算复杂度，发现线性模型和基于树的模型比神经网络更具可解释性。然后引入了一种基于偏好的框架，使用户能够根据其偏好进行个性化解释，无论是在半事实还是对事实进行优化，增强了可解释性和用户中心性。最后，探索了所提出的基于偏好的框架中几个可解释性问题的复杂性，并提供了多项式情况下的算法。

Jan, 2024

事后 XAI 方法中的可预测性与可理解性：用户中心分析

评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性，发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外，发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果，提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。

Sep, 2023

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019