该研究分析了模型 input-gradients 在解释性方面的问题,提出了将标准 softmax-based 分类器的 logits 重新解释为未归一化的数据密度,证明了 input-gradients 可以被视为隐含于判别模型中的类条件密度模型的梯度,并提出了通过 score-matching 来实现对隐含密度模型与数据分布的对齐的算法。研究表明,对齐隐含密度模型和数据分布可以提高梯度的结构性和解释性。
Jun, 2020
本文提出了一种新的输入无关的显著性地图方法,它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示,以更加准确和公正地解释模型的行为,同时在大规模模型中成功应用,并且通过识别受损分类器中的后门签名,展示了这种新形式显著性映射的另一个有趣的用途。
Mar, 2023
本研究评估了不同防御机制对神经网络的有效性,发现使用输入梯度规则化训练的神经网络具有抵御小幅度扰动的鲁棒性,并且可以提高预测的可解释性。同时,对这种神经网络产生的误分类可以解释,并进一步讨论了深度神经网络中解释性和鲁棒性之间的关系。
Nov, 2017
通过学习输入梯度,从源任务到目标任务甚至跨不同模型结构的迁移学习中,针对输入梯度的语义直接攻击是实现对抗鲁棒性的可行方法。
Dec, 2019
本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法,在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法,并提出了 “模型扰动” 的健全性检查,以补充传统的 “模型随机化” 测试。
Jun, 2022
本文使用损失梯度来解释深度学习模型的决策过程,并通过遮盖输入的部分来评估基于损失梯度的归因方法的表现,在一定条件下,遮盖后的输入在测试数据集上表现更好,探索不同的损失梯度归因方法、遮盖水平和替换值来解释遮盖下性能提升现象。
Jul, 2022
本文提出新的思路,通过特征归因归一化改进局部梯度,提出了 L2 范数和余弦距离的规范化不变的损失函数作为正则化项,在 CIFAR-10 和 ImageNet-100 上实验表明该方法大大提高了解释的鲁棒性。
Nov, 2022
本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化(J-SIGR)的新方法,从 Jacobian 规范的线性化健壮性建议,并控制基于扰动的显著性图以模仿模型的可解释预测,这既实现了改进的防御又实现了 DNN 的高可解释性。
基于特征选择的统一离散优化框架引入了自适应性,提出了一种自适应的 Greedy PIG 方法以增强特征归因方法的能力。
Nov, 2023
通过使用半环,我们将反向传播算法推广到神经网络的梯度图的其他可解释统计量的高效计算,以识别深度神经网络中的重要特征、组件和自注意机制的路径。
Jul, 2023