关于显著图和对抗鲁棒性

KDDJun, 2020

On Saliency Maps and Adversarial Robustness

Puneet Mangla, Vedant Singh, Vineeth N Balasubramanian

TL;DR本文提出了一种基于 Saliency map 的对抗训练方法（SAT），通过使用详细的弱显著性图（如边界框和分割掩码）来改进模型的对抗鲁棒性，同时展示了如何进一步提高性能。

Abstract

A Very recent trend has emerged to couple the notion of interpretability and adversarial robustness, unlike earlier efforts which solely focused on good interpretations or robustness against adversaries. Works ha

interpretability adversarial robustness saliency map sat adversarial training

发现论文，激发创造

对抗性鲁棒性和显著性图解释性之间的联系

本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

May, 2019

深度神经网络中解释性与鲁棒性的相互作用探索：一种基于显著性引导的方法

通过使用基于显著性引导的训练（SGT）技术，研究表明它对深度学习模型的鲁棒性和可解释性有显著提升，并提出了一种将 SGT 与标准对抗训练相结合的方法，在确保显著性图质量的同时，实现更大程度的鲁棒性。该方法取得了显著进展，在 MNIST 和 CIFAR-10 数据集上，对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时，鲁棒性提高了 35％和 20％，同时生成高质量的显著性图。

May, 2024

使用显著性检测来检测对抗扰动

该论文提出了一种新的检测对抗样本的方法，通过训练一个使用原始数据和显著性数据的二元分类器。该方法在检测对抗扰动方面表现良好。他们定量评估了检测器的泛化性能，表明在具有强对手的训练下，检测器在弱对手方面表现良好。

Mar, 2018

深度学习中的可证明鲁棒解释

本研究提出了一种用于解释深度学习的可靠技术，并证实该方法对付对抗性攻击具有可靠性。

May, 2019

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

基于显著性训练提高深度神经网络在图像分类中的鲁棒性？

本文研究深度神经网络的鲁棒性问题，特别关注对抗样本的攻击。通过在线显著特征训练，得到视觉可解释性的特征，但实验结果显示，这些特征并不能提升模型对抗样本攻击的性能。

Jun, 2023

基于显著性的防御对抗样本的方法（SAD）

本研究提出了一种基于视觉显著性的方法，用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策，并在相对减少清理后图像的损失的同时，通过评估各种指标的准确性来证明它的有效性。

Mar, 2020

SCAAT：通过关注点约束自适应对抗训练提升神经网络可解释性

我们提出了一种名为 SCAAT 的模型无关学习方法，通过在显著性图的指导下构建对抗样本，改善了深度神经网络 (DNNs) 的可解释性，使显著性图更加精确和可靠，而不需要对模型架构进行任何修改。通过在多个 DNN 和不同图像数据集上评估生成的显著性图的质量，结果表明 SCAAT 显著提高了 DNNs 的可解释性，提供更可靠的显著性图而不损失其预测能力。

Nov, 2023

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019