使用高层次表征引导去噪器抵御对抗攻击
Defense-GAN 使用生成模型来抵御深度神经网络受到的对抗性攻击,并不需要修改分类器结构或者训练过程,可以适用于任何分类模型,并且不需要了解生成对抗性示例的过程。在不同的攻击方法下,实验证明 Defense-GAN 对抗性攻击防御策略具有一致的有效性,并可以提高现有的防御策略。
May, 2018
本文提出了一种新颖的净化方法,即导向扩散模型净化(GDMP),旨在帮助保护深度神经网络分类器免受对抗攻击的影响。在各种数据集上进行的广泛实验表明,所提出的 GDMP 将由对抗攻击引起的扰动降至浅层范围,从而显着提高了分类的正确性,并提高了 5%的鲁棒性。
May, 2022
通过将输入图像分成多个块,对每个块进行去噪并重构图像来提高深度神经网络对抗攻击的鲁棒性,在灰盒测试方案下,该方法比现有技术提高了 19.7% 的准确度,并且在黑盒测试方案下具有可比拟的表现,在白盒测试方案下取得 34.4% 的准确率,这是最近研究中没有出现的。
Feb, 2018
该论文提出了一种基于生成对抗网络 (GAN) 框架下的新防御机制来对抗黑盒攻击,在经验上表现良好并能与利用梯度下降的集成对抗训练和对抗训练等最先进的方法媲美。
May, 2019
本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法,该方法利用了随机生成建模的最新进展,并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声,然后进行预训练扩散过程,该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证,表明我们的方法在各种威胁模型下优于主要的防御方法。
Jul, 2022
该文章提出了一种直接部署到标准深度神经网络模型中的简单方法,通过引入两个经典图像处理技术,标量量化和平滑空间滤波,将图像中的扰动降低到最小,使用图像熵作为度量标准,可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本,最终的实验结果表明,该检测方法可以取得 96.39%的高整体 F1 评分。
May, 2017
通过梯度方法可以发现虚假的区域,该文认为这些区域不是弱点而是优势,提出了一种通过检测这些区域的方法来成功检测出对抗攻击的方法,在攻击者完全了解检测机制的情况下,实现了前所未有的准确性。
Oct, 2019