通过有意义的扰动提供黑匣子的可解释性解释

ICCVApr, 2017

通过有意义的扰动提供黑匣子的可解释性解释

Interpretable Explanations of Black Boxes by Meaningful Perturbation

Ruth Fong, Andrea Vedaldi

TL;DR该研究提出了一种适用于任何黑盒机器学习算法的通用解释框架，并将其特化以找到对分类器决策最负责的图像部分。该方法是模型无关且可测试的，因为它基于明确且可解释的图像扰动。

Abstract

As machine learning algorithms are increasingly applied to high impact yet high risk tasks, such as medical diagnosis or autonomous driving, it is critical that researchers can explain how such algorithms arrived at their predictions. In recent years, a number of →

machine learning image saliency black box algorithm interpretability classifier

发现论文，激发创造

神经网络解释易受伤

本文探究了解释深度学习预测的方法对于随机扰动的敏感性，发现即使对于具有同一预测标签的两个感官不可分的输入，这些方法也会得出非常不同的解释结果，并分析了导致这种脆弱性的几何原因。

Oct, 2017

强健稳定的黑盒解释

通过敌对训练的方法，我们提出了一个生成稳健且高保真黑盒模型解释的新框架，尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题，本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释，实验发现我们的方法显著提高了解释的鲁棒性，而不会在原始数据分布上牺牲解释的保真度。

Nov, 2020

你看到的就是你分类的：黑盒归因

在黑盒神经网络的基础上，通过训练第二个网络来预测对预备的黑盒分类器的贡献，并将这些贡献以只显示与分类器相关部分的蒙版的形式提供，我们的方法可以直接在单个前向传递中生成非常明显的类特定蒙版。

May, 2022

渐进式夸张解释

本文提出了一种基于类的语义扩张的方法，该方法可以解释分类黑盒模型的结果，是模型无关的，并且只需要输出值和预测器相对于其输入的梯度。

Nov, 2019

人类中心的可解释人工智能方法评估

人工智能的解释方法对理解深度学习中的决策过程具有重要意义，通过研究对比了三种解释方法的可解释性，结果显示这些方法虽然强调的区域各不相同，但都能提供人类几乎相等的深度理解，进一步增强了这些方法在提升人工智能透明度方面的价值。

Oct, 2023

平滑解释黑匣子 —— 反事实方法

该研究提出了一种黑盒对抗解释器来解释医学应用中的图像分类模型，并通过对诊断放射学居民进行实验，发现反事实解释是唯一能显着提高用户对分类器决策理解的解释方法。

Jan, 2021

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

计算机视觉模型的黑盒对抗攻击综述

该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究，旨在提高模型的鲁棒性。

Dec, 2019

DiffExplainer: 通过反事实生成揭示黑匣子模型

通过生成对抗图像，我们提出了一种方法来揭示影响黑盒模型的决策的关键特征，以提高医学图像分类中深度学习模型的可靠性。

Jun, 2024

非欺骗性基于扰动的事后解释器

本文研究如何对黑盒人工智能系统进行可解释性分析，提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击，并使用 KNN-CAD 来进行条件异常值检测，实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。

May, 2022