对抗净化的鲁棒扩散模型

Mar, 2024

Robust Diffusion Models for Adversarial Purification

Guang Lin, Zerui Tao, Jianhai Zhang, Toshihisa Tanaka, Qibin Zhao

TL;DR我们提出了一种具有逆向过程的鲁棒性指导方法，该方法独立于预训练的扩散模型，在不重新训练或微调扩散模型的情况下实现了对抗训练策略，保留了更多的语义内容，并减轻了扩散模型的准确性和鲁棒性之间的权衡，从而为基于扩散模型的对抗净化方法提供了对新攻击的高效适应能力。通过大量实验证实，我们的方法达到了最先进的结果，并展现了对不同攻击的泛化能力。

Abstract

diffusion models (DMs) based adversarial purification (AP) has shown to be the most powerful alternative to adversarial training (AT). However, these methods neglect the fact that pre-trained →

diffusion models adversarial purification semantic content accuracy-robustness trade-off generalization

发现论文，激发创造

对抗净化的扩散模型

本文提出了 DiffPure，使用扩散模型进行过去神经网络的抵御攻击，结果表明它在三个图像数据集上优于现有的对抗训练和对抗净化方法，通常差距很大。

May, 2022

引导扩散模型用于对抗性纯化

本文提出了一种新颖的净化方法，即导向扩散模型净化（GDMP），旨在帮助保护深度神经网络分类器免受对抗攻击的影响。在各种数据集上进行的广泛实验表明，所提出的 GDMP 将由对抗攻击引起的扰动降至浅层范围，从而显着提高了分类的正确性，并提高了 5％的鲁棒性。

May, 2022

语言引导的对抗净化

通过使用生成模型进行对抗性净化，可以展示出很强的对抗性防御性能。我们介绍了一种新的框架，即语言引导对抗净化（LGAP），利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕，我们的方法首先生成一个字幕，然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估，证明了其提高对抗性鲁棒性的有效性。我们的结果表明，LGAP 的性能优于大多数现有的对抗性防御技术，而不需要专门的网络训练，突显了在大规模数据集上训练的模型的广泛适用性，为进一步的研究方向提供了有希望的方向。

Sep, 2023

DiffAttack：扩散反对抗净化的逃避攻击

在这篇论文中，我们提出了一种统一框架 DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括 DDPM 和基于分数的方法。我们通过在中间扩散步骤引入偏差重建损失来解决梯度消失 / 爆炸问题，提供了一种分段转发 - 反向传播算法，通过降低模型的稳健性减少了针对 CIFAR-10 和 ImageNet 的攻击的准确性。

Oct, 2023

DensePure: 理解扩散模型以提高对抗鲁棒性

通过分析扩散模型的基本属性，建立它们能够提高认证鲁棒性的条件，进而提出了新的 DensePure 方法。DensePure 包括多个通过扩散模型的反向过程（具有不同随机因素）的去噪运行，用于消除对抗性输入。最终预测结果是通过对推断标签的多数投票得出的，其设计受到了对反向样本的条件分布的理论分析的启发。

Nov, 2022

基于扩散的对抗净化用于入侵检测

证明扩散模型在网络入侵检测中净化对抗样本方面的有效性，通过对扩散参数的全面分析，识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是，该研究揭示了扩散噪声和扩散步骤之间的关系，对该领域具有重要贡献。实验在两个数据集上进行，并针对 5 种对抗攻击进行了测试。实现代码公开可用。

Jun, 2024

通过对抗去噪扩散训练实现更好的对抗净化

扩散基净化（DBP）是一种有希望对抗恶意攻击的方法，通过确定梯度来检验 DBP 的稳健性，研究表明随机性是 DBP 的主要稳健因素，提出了 Adversarial Denoising Diffusion Training（ADDT）来提高 DBP 模型的稳健性。

Apr, 2024

Purify++: 用先进扩散模型和随机性控制改进扩散净化

对扩散净化方法进行了系统性探索，提出了一种新的扩散净化算法 Purify++，是目前对多种对抗攻击具有最先进防御效果的方法。

Oct, 2023

Mist：面向扩散模型的改进对抗样本

本文研究了扩散模型对于人工智能生成内容，特别是艺术创作的成功，并提出了针对侵权的对抗样本有效性方案。我们探讨了对抗样本的可迁移性问题并利用融合与修改的对抗损失函数明显提高了其可迁移性。实验结果表明我们的方法比现有方法更能生成可迁移且更具有对抗攻击鲁棒性的对抗样本。

May, 2023

净化上的对抗性训练（AToP）：增强鲁棒性和泛化能力

在这篇论文中，研究人员提出了一种称为对抗训练纯化（AToP）的新框架，通过随机转换（RT）的扰动破坏和对抗损失下的纯化模型优化（FT）来加强深度神经网络对抗攻击的鲁棒性和泛化能力，并通过对 CIFAR-10、CIFAR-100 和 ImageNette 的广泛实验表明其在对抗攻击防御方面达到了最先进的结果和泛化能力。

Jan, 2024