基于梯度的 NLP 模型分析易受操控

Oct, 2020

Gradient-based Analysis of NLP Models is Manipulable

Junlin Wang, Jens Tuyls, Eric Wallace, Sameer Singh

TL;DR本文研究了神经网络自然语言处理模型的可解释性，特别是基于梯度的分析方法。我们发现，这些分析方法的梯度很容易被劫持，具有误导性。结合多项自然语言处理任务的实验结果，本文提出一种基于覆盖层的方法来干扰和欺骗这些梯度。

Abstract

gradient-based analysis methods, such as saliency map visualizations and adversarial input perturbations, have found widespread use in int

发现论文，激发创造

本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Nov, 2021

本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法，结果表明，即使对少量单词进行更改，这些方法也可能变得不稳定和不可信。

Aug, 2021

本文通过分析反向传播型显著性方法，提出了一个框架，将多种方法统一起来，进而提出了一个新的基于空间梯度特征的显著性方法 - NormGrad，并通过将不同层的显著图进行结合，测试不同层级网络提取信息的能力，并且引入了一个类别敏感指标和元学习方法以提高对输出类的敏感度。

Apr, 2020

本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法，在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法，并提出了 “模型扰动” 的健全性检查，以补充传统的 “模型随机化” 测试。

Jun, 2022

本文提出了一种通用扰动方法（UPI）来干扰神经网络梯度解释，并通过数值结果支持了该方法的成功应用。

Nov, 2022

本研究通过对神经网络解释方法进行对抗模型操纵，检验了其稳定性，并提出了两种欺骗类型 —— 被动和主动。研究结果指出，利用我们的模型欺骗方法，目前最先进的解释器都能轻松被骗过去。因此，神经网络解释方法的稳定性是开发出具有鲁棒性和可靠性的神经网络解释方法的重要标准。

Feb, 2019

该研究证明了图神经网络容易受到对抗性攻击，在此基础上提出了一种多跳聚合的信息传递和正则化方法以增强对抗攻击的隐蔽性和攻击性能。

Aug, 2022

本论文研究了卷积网络的可解释性，通过利用显著性图进行分析。我们提出了一种新的训练方法，通过引入正则化损失，使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现，由此得到的梯度在质量上更加清晰，量化上改善了不同网络的可解释性特性，使用了多种可解释性方法。

Apr, 2024

该研究探讨使用影响函数解释 NLP 模型的决策，并与基于词汇显著性的方法进行比较。该方法被发现特别适用于自然语言推理这样复杂的任务，并且还开发了一种基于影响函数的新的定量衡量方法，可以揭示训练数据中的人为制品。

May, 2020

通过对简单梯度方案进行稀疏性及连接性调整，采用对抗训练作为一种内部处理方案，设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。

Apr, 2024