基于范数正则化的结构化梯度解释方法

CVPRApr, 2024

基于范数正则化的结构化梯度解释方法

Structured Gradient-based Interpretations via Norm-Regularized Adversarial Training

Shizhan Gong, Qi Dou, Farzan Farnia

TL;DR通过对简单梯度方案进行稀疏性及连接性调整，采用对抗训练作为一种内部处理方案，设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。

Abstract

gradient-based saliency maps have been widely used to explain the decisions of deep neural network classifiers. However, standard gradient-based interpretation maps, including the simple gradient and integrated g

gradient-based saliency maps deep neural network classifiers sparsity connectedness adversarial training

发现论文，激发创造

结构性对抗攻击：向通用实现和更好的可解释性迈进

本文提出一种名为 StrAttack 的结构化攻击模型，通过滑动掩模来提取关键的空间结构并具有更好的可解释性，该模型能够实现与现有攻击方法相同水平的 Lp 范数失真的强组稀疏化。实验证明 StrAttack 在 MNIST、CIFAR-10 和 ImageNet 数据集上的攻击效果是有效的。

Aug, 2018

通过结构化梯度正则化进行对抗性鲁棒性训练

本文提出了一种新的数据依赖性结构化梯度正则化器，旨在增加神经网络对抗扰动的鲁棒性，该正则化器可以从第一原理中导出。实验证据表明，结构化梯度正则化是对抗低水平信号污染攻击的有效一线防御。

May, 2018

选择性输入梯度正则化的雅可比范数用于改进和解释可行对抗防御

本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化（J-SIGR）的新方法，从 Jacobian 规范的线性化健壮性建议，并控制基于扰动的显著性图以模仿模型的可解释预测，这既实现了改进的防御又实现了 DNN 的高可解释性。

Jul, 2022

可解释梯度的学习范式

本论文研究了卷积网络的可解释性，通过利用显著性图进行分析。我们提出了一种新的训练方法，通过引入正则化损失，使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现，由此得到的梯度在质量上更加清晰，量化上改善了不同网络的可解释性特性，使用了多种可解释性方法。

Apr, 2024

深度学习中的可证明鲁棒解释

本研究提出了一种用于解释深度学习的可靠技术，并证实该方法对付对抗性攻击具有可靠性。

May, 2019

提高 SNNs 中稀疏梯度的对抗鲁棒性

通过梯度稀疏化正则化提高脉冲神经网络 (SNNs) 的鲁棒性，将梯度稀疏性与对抗性扰动之间的差距最小化，改善 SNNs 的整体鲁棒性。

May, 2024

关于显著图和对抗鲁棒性

本文提出了一种基于 Saliency map 的对抗训练方法（SAT），通过使用详细的弱显著性图（如边界框和分割掩码）来改进模型的对抗鲁棒性，同时展示了如何进一步提高性能。

Jun, 2020

分组稀疏和可解释的对抗攻击

通过在图像的语义相关区域同时生成群组稀疏攻击的优化算法，在保持较低干扰量的同时，显著提高了群组稀疏性，且具备较快的计算速度和百分之百的攻击成功率。

Nov, 2023

通过谱归一化来实现可推广性对抗性训练

本研究旨在通过使用谱规范化方法，为深度神经网络在对抗性环境下的训练提供一种有效的正则化策略，以解决其在输入微小的对抗性扰动下缺乏鲁棒性的问题。同时，我们将边界损失延伸到对抗性环境，并限制了多个梯度攻击方案下深度神经网络的泛化误差。

Nov, 2018

基于显著性引导训练的深度学习解释性改进

本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Nov, 2021