通过使用基于显著性引导的训练(SGT)技术,研究表明它对深度学习模型的鲁棒性和可解释性有显著提升,并提出了一种将 SGT 与标准对抗训练相结合的方法,在确保显著性图质量的同时,实现更大程度的鲁棒性。该方法取得了显著进展,在 MNIST 和 CIFAR-10 数据集上,对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时,鲁棒性提高了 35%和 20%,同时生成高质量的显著性图。
May, 2024
本研究提出了一种基于视觉显著性的方法,用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策,并在相对减少清理后图像的损失的同时,通过评估各种指标的准确性来证明它的有效性。
Mar, 2020
本研究提出一种基于特征导引的黑盒攻击方法,可以应用于深度神经网络的安全测试,无需深入的网络知识,在人类视觉系统指导下对像素分布进行检测,并利用蒙特卡罗树搜索逐步探索游戏状态空间以寻找对抗性样本,当前方法在安全关键应用如自动驾驶车辆中的交通标志识别中具有广泛的应用前景。
Oct, 2017
该论文提出了一种新的检测对抗样本的方法,通过训练一个使用原始数据和显著性数据的二元分类器。该方法在检测对抗扰动方面表现良好。他们定量评估了检测器的泛化性能,表明在具有强对手的训练下,检测器在弱对手方面表现良好。
Mar, 2018
本文介绍了一种基于显著性引导培训的神经网络方法,可以有效降低噪声导致的特征归因不准确,并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。
Nov, 2021
本文研究神经网络的对抗漏洞,证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关,使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。
May, 2019
本文提出了一种基于 Saliency map 的对抗训练方法(SAT),通过使用详细的弱显著性图(如边界框和分割掩码)来改进模型的对抗鲁棒性,同时展示了如何进一步提高性能。
Jun, 2020
本文提出了一种改进神经网络分类器特征可解释性的方法,将对抗鲁棒性引入模型训练过程,并通过评估真实边界框和可视化方法量化特征可解释性,在 NIH ChestX-ray14 数据集上进行了实验,并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。
当前深度神经网络容易受到对抗样本的攻击,添加有针对性的噪音改变预测结果。本研究提出将主动视觉机制融入深度学习系统,通过从不同的注视点获取下采样视觉片段进行学习和推理,实现更大幅度的鲁棒性提升,同时可视化分析证明了从不同注视点进行推理使主动视觉方法对恶意输入更加抵抗。
Mar, 2024
本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性,以及在黑盒攻击下的细微差别,并定义了鲁棒性增益的度量指标来衡量其效果。研究表明,尽管对抗训练是提高白盒场景下的鲁棒性的有效方法,但对于更现实的基于决策的黑盒攻击,则可能无法提供如此良好的鲁棒性增益。此外,即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。
Jul, 2021