本文提出一种名为 StrAttack 的结构化攻击模型,通过滑动掩模来提取关键的空间结构并具有更好的可解释性,该模型能够实现与现有攻击方法相同水平的 Lp 范数失真的强组稀疏化。实验证明 StrAttack 在 MNIST、CIFAR-10 和 ImageNet 数据集上的攻击效果是有效的。
Aug, 2018
本文提出了一种新的数据依赖性结构化梯度正则化器,旨在增加神经网络对抗扰动的鲁棒性,该正则化器可以从第一原理中导出。实验证据表明,结构化梯度正则化是对抗低水平信号污染攻击的有效一线防御。
May, 2018
本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化(J-SIGR)的新方法,从 Jacobian 规范的线性化健壮性建议,并控制基于扰动的显著性图以模仿模型的可解释预测,这既实现了改进的防御又实现了 DNN 的高可解释性。
Jul, 2022
本论文研究了卷积网络的可解释性,通过利用显著性图进行分析。我们提出了一种新的训练方法,通过引入正则化损失,使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现,由此得到的梯度在质量上更加清晰,量化上改善了不同网络的可解释性特性,使用了多种可解释性方法。
Apr, 2024
本研究提出了一种用于解释深度学习的可靠技术,并证实该方法对付对抗性攻击具有可靠性。
May, 2019
通过梯度稀疏化正则化提高脉冲神经网络 (SNNs) 的鲁棒性,将梯度稀疏性与对抗性扰动之间的差距最小化,改善 SNNs 的整体鲁棒性。
May, 2024
本文提出了一种基于 Saliency map 的对抗训练方法(SAT),通过使用详细的弱显著性图(如边界框和分割掩码)来改进模型的对抗鲁棒性,同时展示了如何进一步提高性能。
Jun, 2020
通过在图像的语义相关区域同时生成群组稀疏攻击的优化算法,在保持较低干扰量的同时,显著提高了群组稀疏性,且具备较快的计算速度和百分之百的攻击成功率。
Nov, 2023
本研究旨在通过使用谱规范化方法,为深度神经网络在对抗性环境下的训练提供一种有效的正则化策略,以解决其在输入微小的对抗性扰动下缺乏鲁棒性的问题。同时,我们将边界损失延伸到对抗性环境,并限制了多个梯度攻击方案下深度神经网络的泛化误差。
Nov, 2018
本文介绍了一种基于显著性引导培训的神经网络方法,可以有效降低噪声导致的特征归因不准确,并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。
Nov, 2021