深度视觉特征的神经元解释破坏
本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法,激活函数的平滑以及网络 Hessian 的最小化,实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。
Dec, 2020
本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。
Jun, 2022
本文研究了后续可解释性方法对自然发生的转换形式(即增强)的响应,发现不同的可解释性方法在稳定性上存在显著差异,并提供证据表明,不论数据增强是否用于训练中,在增强方面的解释通常不如分类性能稳健。
Apr, 2023
我们提出了一种新颖的贝叶斯方法,用于从深度神经网络中提取解释、证明和不确定性估计,无需重新训练,适用于任何黑盒深度神经网络,并能显著提高解释性和可靠性。
Mar, 2024
提出了一种能够生成对于噪音稳健且符合人类直觉的图神经网络的可靠反事实解释的新方法,该方法明确地对相似输入图的常见决策逻辑进行建模,并从许多相似输入图的公共决策边界中产生可靠的解释。
Jul, 2021
本文提出了一种名为 NeuronInspect 的深度神经网络检测框架,可通过输出解释技术检测深度神经网络中的 trojan backdoors,并应用于 MNIST 数字识别和 GTSRB 交通标志识别数据集中,通过异常检测和特征提取来获得更好的鲁棒性和准确性
Nov, 2019
基于对标签噪声的变化,对不同类型的 GNN 解释器的效力进行系统的实证调查,发现 GNN 解释器容易受到标签扰动的影响,即使是轻微的标签噪声也会明显影响解释的质量,同时研究了随着噪声水平增加解释效果的逐渐恢复过程。
Sep, 2023
该研究论文探讨了关于图神经网络(GNNs)在决策过程中透明度不足的问题,并针对生成 GNNs 解释的方法和数据的评估,研究了三个主要领域的普遍问题:(1)合成数据生成过程,(2)评估指标,以及(3)解释的最终呈现。此外,本文进行了一项实证研究,探讨了这些问题的意外后果,并提出了缓解这些问题的建议。
Nov, 2021