本文研究神经网络的对抗漏洞,证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关,使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。
May, 2019
通过使用基于显著性引导的训练(SGT)技术,研究表明它对深度学习模型的鲁棒性和可解释性有显著提升,并提出了一种将 SGT 与标准对抗训练相结合的方法,在确保显著性图质量的同时,实现更大程度的鲁棒性。该方法取得了显著进展,在 MNIST 和 CIFAR-10 数据集上,对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时,鲁棒性提高了 35%和 20%,同时生成高质量的显著性图。
May, 2024
该论文提出了一种新的检测对抗样本的方法,通过训练一个使用原始数据和显著性数据的二元分类器。该方法在检测对抗扰动方面表现良好。他们定量评估了检测器的泛化性能,表明在具有强对手的训练下,检测器在弱对手方面表现良好。
Mar, 2018
本研究提出了一种用于解释深度学习的可靠技术,并证实该方法对付对抗性攻击具有可靠性。
本研究采用掩蔽技术生成显著性地图,发现训练分类器的同时,采用掩蔽技术生成显著性地图具有很高的性能,并且 10 个样本每类也可以显著提高显著性地图的精度。
Oct, 2020
本文研究深度神经网络的鲁棒性问题,特别关注对抗样本的攻击。通过在线显著特征训练,得到视觉可解释性的特征,但实验结果显示,这些特征并不能提升模型对抗样本攻击的性能。
Jun, 2023
本研究提出了一种基于视觉显著性的方法,用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策,并在相对减少清理后图像的损失的同时,通过评估各种指标的准确性来证明它的有效性。
Mar, 2020
我们提出了一种名为 SCAAT 的模型无关学习方法,通过在显著性图的指导下构建对抗样本,改善了深度神经网络 (DNNs) 的可解释性,使显著性图更加精确和可靠,而不需要对模型架构进行任何修改。通过在多个 DNN 和不同图像数据集上评估生成的显著性图的质量,结果表明 SCAAT 显著提高了 DNNs 的可解释性,提供更可靠的显著性图而不损失其预测能力。
Nov, 2023
通过对深度神经网络进行对抗训练,研究评估其对模型的鲁棒性和解释性的影响,证明了这两个问题之间的相关性。
Jul, 2023
本文提出了一种改进神经网络分类器特征可解释性的方法,将对抗鲁棒性引入模型训练过程,并通过评估真实边界框和可视化方法量化特征可解释性,在 NIH ChestX-ray14 数据集上进行了实验,并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。