深度视觉特征的神经元解释破坏

Oct, 2023

Corrupting Neuron Explanations of Deep Visual Features

Divyansh Srivastava, Tuomas Oikarinen, Tsui-Wei Weng

TL;DR通过统一的流程对神经元解释方法进行了首次的鲁棒性分析，揭示在探测数据中添加随机噪声和设计良好的干扰可以显著破坏这些解释，引发对神经元解释方法在现实应用中的安全和公平性的关切。

Abstract

The inability of dnns to explain their black-box behavior has led to a recent surge of explainability methods. However, there are growing concerns that these →

dnns explainability methods robustness analysis neuron explanation methods corruption algorithm

发现论文，激发创造

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

解释可以被操纵，几何学应为罪魁祸首

在这篇论文中，我们研究了解释方法的隐患，表明在输入数据上的无用微扰可以任意操纵神经网络的解释结果，同时提出了增强解释鲁棒性的有效机制。

Jun, 2019

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

常见数据增强对视觉解释的鲁棒性

本文研究了后续可解释性方法对自然发生的转换形式（即增强）的响应，发现不同的可解释性方法在稳定性上存在显著差异，并提供证据表明，不论数据增强是否用于训练中，在增强方面的解释通常不如分类性能稳健。

Apr, 2023

从黑箱深度神经网络中提取解释、证明和不确定性

我们提出了一种新颖的贝叶斯方法，用于从深度神经网络中提取解释、证明和不确定性估计，无需重新训练，适用于任何黑盒深度神经网络，并能显著提高解释性和可靠性。

Mar, 2024

图神经网络的鲁棒性因果解释

提出了一种能够生成对于噪音稳健且符合人类直觉的图神经网络的可靠反事实解释的新方法，该方法明确地对相似输入图的常见决策逻辑进行建模，并从许多相似输入图的公共决策边界中产生可靠的解释。

Jul, 2021

NeuronInspect: 通过输出解释检测神经网络中的后门

本文提出了一种名为 NeuronInspect 的深度神经网络检测框架，可通过输出解释技术检测深度神经网络中的 trojan backdoors，并应用于 MNIST 数字识别和 GTSRB 交通标志识别数据集中，通过异常检测和特征提取来获得更好的鲁棒性和准确性

Nov, 2019

关于后处理 GNN 解释器对标签噪音的鲁棒性

基于对标签噪声的变化，对不同类型的 GNN 解释器的效力进行系统的实证调查，发现 GNN 解释器容易受到标签扰动的影响，即使是轻微的标签噪声也会明显影响解释的质量，同时研究了随着噪声水平增加解释效果的逐渐恢复过程。

Sep, 2023

使用大型模型对深度视觉神经元进行自动化自然语言解释

通过研究神经元来解释深度神经网络并生成语义解释，以解决目前在此方面的限制、缺乏可伸缩性和适用性的问题。

Oct, 2023

解密图神经网络解释

该研究论文探讨了关于图神经网络（GNNs）在决策过程中透明度不足的问题，并针对生成 GNNs 解释的方法和数据的评估，研究了三个主要领域的普遍问题：（1）合成数据生成过程，（2）评估指标，以及（3）解释的最终呈现。此外，本文进行了一项实证研究，探讨了这些问题的意外后果，并提出了缓解这些问题的建议。

Nov, 2021