对抗性鲁棒性和显著性图解释性之间的联系

May, 2019

对抗性鲁棒性和显著性图解释性之间的联系

On the Connection Between Adversarial Robustness and Saliency Map Interpretability

Christian Etmann, Sebastian Lunz, Peter Maass, Carola-Bibiane Schönlieb

TL;DR本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

Abstract

Recent studies on the adversarial vulnerability of neural networks have shown that models trained to be more robust to adversarial attacks exhibit more interpretable →

adversarial vulnerability neural networks saliency maps alignment lipschitz regularization

发现论文，激发创造

关于显著图和对抗鲁棒性

本文提出了一种基于 Saliency map 的对抗训练方法（SAT），通过使用详细的弱显著性图（如边界框和分割掩码）来改进模型的对抗鲁棒性，同时展示了如何进一步提高性能。

Jun, 2020

基于显著性训练提高深度神经网络在图像分类中的鲁棒性？

本文研究深度神经网络的鲁棒性问题，特别关注对抗样本的攻击。通过在线显著特征训练，得到视觉可解释性的特征，但实验结果显示，这些特征并不能提升模型对抗样本攻击的性能。

Jun, 2023

深度神经网络中解释性与鲁棒性的相互作用探索：一种基于显著性引导的方法

通过使用基于显著性引导的训练（SGT）技术，研究表明它对深度学习模型的鲁棒性和可解释性有显著提升，并提出了一种将 SGT 与标准对抗训练相结合的方法，在确保显著性图质量的同时，实现更大程度的鲁棒性。该方法取得了显著进展，在 MNIST 和 CIFAR-10 数据集上，对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时，鲁棒性提高了 35％和 20％，同时生成高质量的显著性图。

May, 2024

建立可靠的神经网络解释：模型解释的局部平滑视角

本研究提出了一种基于光滑景观的预测且稳定的神经网络模型解释方法，通过批量学习噪声复制品并采用 L1 规范化方法对显著性地图进行训练，使模型学习得到局部光滑模型解释，有效地找出与预测结果相关的输入要素并且在对抗样本测试中表现优异。

Mar, 2021

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

深度学习中的可证明鲁棒解释

本研究提出了一种用于解释深度学习的可靠技术，并证实该方法对付对抗性攻击具有可靠性。

May, 2019

当对抗性攻击变成可解释性因果解释

本研究采用 1-Lipschitz 神经网络学习最佳传输问题的双重损失，研究发现，模型的梯度既是传输计划的方向，也是最接近的对抗攻击方向。通过在此类网络上应用简单的显著性图方法，我们得出结论：这种方法成为了可靠的解释方法，并在无限制模型上表现优于现有技术。我们提出的网络已被证明具有认证的鲁棒性，并证明了它们也可以用一种快速简单的方法进行解释。

Jun, 2022

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

基于显著性的防御对抗样本的方法（SAD）

本研究提出了一种基于视觉显著性的方法，用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策，并在相对减少清理后图像的损失的同时，通过评估各种指标的准确性来证明它的有效性。

Mar, 2020

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019