强健稳定的黑盒解释

Nov, 2020

Robust and Stable Black Box Explanations

Himabindu Lakkaraju, Nino Arsov, Osbert Bastani

TL;DR通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Abstract

As machine learning black boxes are increasingly being deployed in real-world applications, there has been a growing interest in developing post hoc explanations that summarize the behaviors of these black boxes. However, existing algorithms for generating such explanations have been s

machine learning black box models post hoc explanations adversarial training robustness

发现论文，激发创造

通过有意义的扰动提供黑匣子的可解释性解释

该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Apr, 2017

可靠的事后解释：解释性中的不确定性建模

本文提出了基于贝叶斯框架的黑盒模型解释方法，能够生成可靠的局部解释和其关联的不确定性，并且具有稳定性和高度一致性，可以快速地解决几个重要问题。通过实证研究，证明了该方法的有效性，并提高了解释的可靠性。

Aug, 2020

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

非欺骗性基于扰动的事后解释器

本文研究如何对黑盒人工智能系统进行可解释性分析，提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击，并使用 KNN-CAD 来进行条件异常值检测，实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。

May, 2022

BELLA：基于本地线性近似的黑盒模型解释

该研究介绍了 BELLA，一种模型无关的后置方法，用于解释回归黑盒模型的个体预测，其以特征空间中的线性模型形式提供解释，并最大化线性模型适用的邻域大小，因此其解释准确，简单，一般且稳健。

May, 2023

LIME 和 SHAP 欺骗：对事后解释方法的对抗攻击

本文提出一种新型的脚手架技术可以隐藏任何给定分类器的偏见，并演示了该技术如何可以欺骗常见的解释技术如 LIME 和 SHAP 生成无害的解释而不反映潜在的偏见。

Nov, 2019

数据驱动解释对抗外部数据的鲁棒性研究

本篇论文提出了基于自监督学习思想的分布式鲁棒性解释，针对黑盒模型的应用，解释在数据分布变化时的可靠性，并通过广泛的实验验证了该方法对模型的鲁棒性提升。

Mar, 2023

解释性之路的通行需面对偏见：衡量解释的公平性

本文通过在金融、医疗保健、大学招生和美国司法系统等四个领域的实际数据中审计了不同保护子组的解释质量，发现不同子组的近似质量显着不同，而解释深度学习模型的近似质量差异存在着公平性挑战，需要进一步解决。

May, 2022

可解释的、可探究的黑匣子模型近似

提出了 BETA 框架，通过透明的逼近来解释任何黑盒分类器的行为，允许用户交互式地探索用户感兴趣的不同子空间中黑盒模型的行为。实验评估表明，与现有基线相比，该方法可以生成高度紧凑，易于理解，但准确的各种预测模型的逼近。

Jul, 2017

正则化黑盒模型以提高可解释性

ExpO 是一种可解释的混合方法，通过训练时对特定正则化器进行操作，改善了基于后处理的解释系统的缺陷，提高了其解释质量和可用性。

Feb, 2019