输入梯度是否突出显示区别特征？

Feb, 2021

输入梯度是否突出显示区别特征？

Do Input Gradients Highlight Discriminative Features?

Harshay Shah, Prateek Jain, Praneeth Netrapalli

TL;DR本文提出一种评估框架 DiffROAR 和 MNIST 半真实数据集 BlockMNIST，用于检验模型对输入梯度的响应，研究表明采用对抗性模型可以更好的体现输入梯度的任务特征，这一发现为提高解释性提供了启示。

Abstract

Post-hoc gradient-based interpretability methods [Simonyan et al., 2013, Smilkov et al., 2017] that provide instance-specific explanations of model predictions are often based on assumption (A): magnitude of input gradi

interpretability post-hoc methods input gradients adversarial robustness evaluation framework

发现论文，激发创造

重新思考基于梯度的属性方法在模型可解释性中的作用

该研究分析了模型 input-gradients 在解释性方面的问题，提出了将标准 softmax-based 分类器的 logits 重新解释为未归一化的数据密度，证明了 input-gradients 可以被视为隐含于判别模型中的类条件密度模型的梯度，并提出了通过 score-matching 来实现对隐含密度模型与数据分布的对齐的算法。研究表明，对齐隐含密度模型和数据分布可以提高梯度的结构性和解释性。

Jun, 2020

重新思考解释：深度视觉分类器的输入无关性显著性映射

本文提出了一种新的输入无关的显著性地图方法，它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示，以更加准确和公正地解释模型的行为，同时在大规模模型中成功应用，并且通过识别受损分类器中的后门签名，展示了这种新形式显著性映射的另一个有趣的用途。

Mar, 2023

通过约束输入渐变来提高深度神经网络的对抗鲁棒性和可解释性

本研究评估了不同防御机制对神经网络的有效性，发现使用输入梯度规则化训练的神经网络具有抵御小幅度扰动的鲁棒性，并且可以提高预测的可解释性。同时，对这种神经网络产生的误分类可以解释，并进一步讨论了深度神经网络中解释性和鲁棒性之间的关系。

Nov, 2017

输入梯度传输的鲁棒性：重要的因素是其认为的重要性

通过学习输入梯度，从源任务到目标任务甚至跨不同模型结构的迁移学习中，针对输入梯度的语义直接攻击是实现对抗鲁棒性的可行方法。

Dec, 2019

几何引导式的整合梯度

本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法，在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法，并提出了 “模型扰动” 的健全性检查，以补充传统的 “模型随机化” 测试。

Jun, 2022

基于损失梯度的可解释方法中的异常行为

本文使用损失梯度来解释深度学习模型的决策过程，并通过遮盖输入的部分来评估基于损失梯度的归因方法的表现，在一定条件下，遮盖后的输入在测试数据集上表现更好，探索不同的损失梯度归因方法、遮盖水平和替换值来解释遮盖下性能提升现象。

Jul, 2022

通过局部梯度对齐实现更强健的解释性

本文提出新的思路，通过特征归因归一化改进局部梯度，提出了 L2 范数和余弦距离的规范化不变的损失函数作为正则化项，在 CIFAR-10 和 ImageNet-100 上实验表明该方法大大提高了解释的鲁棒性。

Nov, 2022

选择性输入梯度正则化的雅可比范数用于改进和解释可行对抗防御

本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化（J-SIGR）的新方法，从 Jacobian 规范的线性化健壮性建议，并控制基于扰动的显著性图以模仿模型的可解释预测，这既实现了改进的防御又实现了 DNN 的高可解释性。

Jul, 2022

贪婪猪：自适应积分梯度

基于特征选择的统一离散优化框架引入了自适应性，提出了一种自适应的 Greedy PIG 方法以增强特征归因方法的能力。

Nov, 2023

推广基于梯度的解释性反向传播

通过使用半环，我们将反向传播算法推广到神经网络的梯度图的其他可解释统计量的高效计算，以识别深度神经网络中的重要特征、组件和自注意机制的路径。

Jul, 2023