信息屏蔽的对抗净化
该研究提出了一种不需要进一步训练的简化对抗性图像的方法,称为 ZeroPur,通过引导位移和自适应投影将对抗性图像纳入自然图像流形,从而实现对各种未见对抗性攻击的防御,并在多个数据集上展示了最新的鲁棒性能。
Jun, 2024
基于扩散的对抗净化技术 MimicDiffusion 直接近似扩散模型的生成过程,以清晰图像作为输入,通过分析使用清晰图像和对抗样本时的引导项的差异,通过曼哈顿距离和两种引导策略净化对抗扰动,逼近清晰扩散模型,实验证明 MimicDiffusion 显著优于现有算法,在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上的平均鲁棒准确率分别提高了 18.49%、13.23% 和 17.64%。
Dec, 2023
传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响,要么会损害非对抗性输入的测试精度。为了解决这些挑战,我们提出了一种高效的防御机制,PuriDefense,它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净化,这些模型利用了本地隐式函数并重建了自然图像流形。我们的理论分析表明,通过将随机性引入净化中,这种方法缓慢了查询攻击的收敛速度。对 CIFAR-10 和 ImageNet 的大量实验证实了我们提出的基于净化器的防御机制的有效性,展示了在对查询攻击的鲁棒性方面的显着改进。
Jan, 2024
通过利用大型语言模型(LLMs)的生成能力,我们提出了一种新颖的对抗文字净化方法,以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本,从而实现语义相似且正确分类的净化示例恢复。在各种分类器上,我们的方法表现出卓越的性能,在攻击下平均提高了 65% 的准确率。
Feb, 2024
该研究提出了新型生成模型,用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验,它证明了这种扰动具有高弄虚率和较小的扰动规模,并且比当前的迭代方法更快。
Dec, 2017
通过使用生成模型进行对抗性净化,可以展示出很强的对抗性防御性能。我们介绍了一种新的框架,即语言引导对抗净化(LGAP),利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕,我们的方法首先生成一个字幕,然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估,证明了其提高对抗性鲁棒性的有效性。我们的结果表明,LGAP 的性能优于大多数现有的对抗性防御技术,而不需要专门的网络训练,突显了在大规模数据集上训练的模型的广泛适用性,为进一步的研究方向提供了有希望的方向。
Sep, 2023
本文旨在探究使用滤波技术的像素去噪方法对于神经网络的鲁棒性增强效果,研究表明相比于基于像素加法的方法,像素滤波技术不仅能取得更高的图像质量而且对于对抗性样本的准确率也有更好的提高。为了解决滤波方法在训练过程中依赖于对抗样本敌扰幅度的问题,文章提出了一种名为 AdvFilter 的方法,该方法集成了双扰动滤波和不确定性感知模块,在训练和测试的过程中能够自动感知其噪声水平,提高了准确率。通过在多个数据集上的实验,研究者还发现考虑数据和模型的联合训练方法能够进一步提高神经网络的鲁棒性。
Jul, 2021
证明扩散模型在网络入侵检测中净化对抗样本方面的有效性,通过对扩散参数的全面分析,识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是,该研究揭示了扩散噪声和扩散步骤之间的关系,对该领域具有重要贡献。实验在两个数据集上进行,并针对 5 种对抗攻击进行了测试。实现代码公开可用。
Jun, 2024
通过扩展受扩散过程启发的输入文本纯化方法,我们提出了一种名为 MaskPure 的新方法,无需对抗分类器进行训练且不需要攻击类型知识,它在同类防御方法中显示出卓越的稳健性和可靠性,同时证明了它的可证实稳健性。
Jun, 2024