对抗净化的扩散模型

ICMLMay, 2022

Diffusion Models for Adversarial Purification

Weili Nie, Brandon Guo, Yujia Huang, Chaowei Xiao, Arash Vahdat...

TL;DR本文提出了 DiffPure，使用扩散模型进行过去神经网络的抵御攻击，结果表明它在三个图像数据集上优于现有的对抗训练和对抗净化方法，通常差距很大。

Abstract

adversarial purification refers to a class of defense methods that remove adversarial perturbations using a generative model. These methods do not make assumptions on the form of attack and the classification mod

adversarial purification generative model diffusion models adjoint method state-of-the-art results

发现论文，激发创造

Purify++: 用先进扩散模型和随机性控制改进扩散净化

对扩散净化方法进行了系统性探索，提出了一种新的扩散净化算法 Purify++，是目前对多种对抗攻击具有最先进防御效果的方法。

Oct, 2023

基于扩散的对抗净化用于入侵检测

证明扩散模型在网络入侵检测中净化对抗样本方面的有效性，通过对扩散参数的全面分析，识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是，该研究揭示了扩散噪声和扩散步骤之间的关系，对该领域具有重要贡献。实验在两个数据集上进行，并针对 5 种对抗攻击进行了测试。实现代码公开可用。

Jun, 2024

DiffAttack：扩散反对抗净化的逃避攻击

在这篇论文中，我们提出了一种统一框架 DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括 DDPM 和基于分数的方法。我们通过在中间扩散步骤引入偏差重建损失来解决梯度消失 / 爆炸问题，提供了一种分段转发 - 反向传播算法，通过降低模型的稳健性减少了针对 CIFAR-10 和 ImageNet 的攻击的准确性。

Oct, 2023

语言引导的对抗净化

通过使用生成模型进行对抗性净化，可以展示出很强的对抗性防御性能。我们介绍了一种新的框架，即语言引导对抗净化（LGAP），利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕，我们的方法首先生成一个字幕，然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估，证明了其提高对抗性鲁棒性的有效性。我们的结果表明，LGAP 的性能优于大多数现有的对抗性防御技术，而不需要专门的网络训练，突显了在大规模数据集上训练的模型的广泛适用性，为进一步的研究方向提供了有希望的方向。

Sep, 2023

MimicDiffusion：通过模仿清洁扩散模型净化对抗扰动

基于扩散的对抗净化技术 MimicDiffusion 直接近似扩散模型的生成过程，以清晰图像作为输入，通过分析使用清晰图像和对抗样本时的引导项的差异，通过曼哈顿距离和两种引导策略净化对抗扰动，逼近清晰扩散模型，实验证明 MimicDiffusion 显著优于现有算法，在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上的平均鲁棒准确率分别提高了 18.49%、13.23% 和 17.64%。

Dec, 2023

对抗净化的鲁棒扩散模型

我们提出了一种具有逆向过程的鲁棒性指导方法，该方法独立于预训练的扩散模型，在不重新训练或微调扩散模型的情况下实现了对抗训练策略，保留了更多的语义内容，并减轻了扩散模型的准确性和鲁棒性之间的权衡，从而为基于扩散模型的对抗净化方法提供了对新攻击的高效适应能力。通过大量实验证实，我们的方法达到了最先进的结果，并展现了对不同攻击的泛化能力。

Mar, 2024

引导扩散模型用于对抗性纯化

本文提出了一种新颖的净化方法，即导向扩散模型净化（GDMP），旨在帮助保护深度神经网络分类器免受对抗攻击的影响。在各种数据集上进行的广泛实验表明，所提出的 GDMP 将由对抗攻击引起的扰动降至浅层范围，从而显着提高了分类的正确性，并提高了 5％的鲁棒性。

May, 2022

ZeroPur: 简洁的无需训练的对抗净化

该研究提出了一种不需要进一步训练的简化对抗性图像的方法，称为 ZeroPur，通过引导位移和自适应投影将对抗性图像纳入自然图像流形，从而实现对各种未见对抗性攻击的防御，并在多个数据集上展示了最新的鲁棒性能。

Jun, 2024

信息屏蔽的对抗净化

我们提出了一种名为信息掩膜净化（IMPure）的新型对抗净化方法，该方法旨在广泛消除对抗性扰动，并在 ImageNet 数据集上通过三个分类器模型的广泛实验证明，我们的方法在对抗攻击方法方面取得了最先进的结果。

Nov, 2023

对抗文本净化：防御的大型语言模型方法

通过利用大型语言模型（LLMs）的生成能力，我们提出了一种新颖的对抗文字净化方法，以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本，从而实现语义相似且正确分类的净化示例恢复。在各种分类器上，我们的方法表现出卓越的性能，在攻击下平均提高了 65% 的准确率。

Feb, 2024