本文介绍了一种基于显著性引导培训的神经网络方法,可以有效降低噪声导致的特征归因不准确,并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。
Nov, 2021
本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法,结果表明,即使对少量单词进行更改,这些方法也可能变得不稳定和不可信。
Aug, 2021
本文通过分析反向传播型显著性方法,提出了一个框架,将多种方法统一起来,进而提出了一个新的基于空间梯度特征的显著性方法 - NormGrad,并通过将不同层的显著图进行结合,测试不同层级网络提取信息的能力,并且引入了一个类别敏感指标和元学习方法以提高对输出类的敏感度。
Apr, 2020
本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法,在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法,并提出了 “模型扰动” 的健全性检查,以补充传统的 “模型随机化” 测试。
Jun, 2022
本文提出了一种通用扰动方法(UPI)来干扰神经网络梯度解释,并通过数值结果支持了该方法的成功应用。
Nov, 2022
本研究通过对神经网络解释方法进行对抗模型操纵,检验了其稳定性,并提出了两种欺骗类型 —— 被动和主动。研究结果指出,利用我们的模型欺骗方法,目前最先进的解释器都能轻松被骗过去。因此,神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。
Feb, 2019
该研究证明了图神经网络容易受到对抗性攻击,在此基础上提出了一种多跳聚合的信息传递和正则化方法以增强对抗攻击的隐蔽性和攻击性能。
Aug, 2022
本论文研究了卷积网络的可解释性,通过利用显著性图进行分析。我们提出了一种新的训练方法,通过引入正则化损失,使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现,由此得到的梯度在质量上更加清晰,量化上改善了不同网络的可解释性特性,使用了多种可解释性方法。
Apr, 2024
该研究探讨使用影响函数解释 NLP 模型的决策,并与基于词汇显著性的方法进行比较。该方法被发现特别适用于自然语言推理这样复杂的任务,并且还开发了一种基于影响函数的新的定量衡量方法,可以揭示训练数据中的人为制品。
May, 2020
通过对简单梯度方案进行稀疏性及连接性调整,采用对抗训练作为一种内部处理方案,设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。