语言引导的对抗净化

Sep, 2023

Language Guided Adversarial Purification

Himanshu Singh, A V Subramanyam

TL;DR通过使用生成模型进行对抗性净化，可以展示出很强的对抗性防御性能。我们介绍了一种新的框架，即语言引导对抗净化（LGAP），利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕，我们的方法首先生成一个字幕，然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估，证明了其提高对抗性鲁棒性的有效性。我们的结果表明，LGAP 的性能优于大多数现有的对抗性防御技术，而不需要专门的网络训练，突显了在大规模数据集上训练的模型的广泛适用性，为进一步的研究方向提供了有希望的方向。

Abstract

adversarial purification using generative models demonstrates strong adversarial defense performance. These methods are classifier and attack-agnostic, making them versatile but often computationally intensive. R

adversarial purification generative models diffusion and score networks adversarial attacks language guided adversarial purification

发现论文，激发创造

对抗文本净化：防御的大型语言模型方法

通过利用大型语言模型（LLMs）的生成能力，我们提出了一种新颖的对抗文字净化方法，以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本，从而实现语义相似且正确分类的净化示例恢复。在各种分类器上，我们的方法表现出卓越的性能，在攻击下平均提高了 65% 的准确率。

Feb, 2024

对抗净化的扩散模型

本文提出了 DiffPure，使用扩散模型进行过去神经网络的抵御攻击，结果表明它在三个图像数据集上优于现有的对抗训练和对抗净化方法，通常差距很大。

May, 2022

引导扩散模型用于对抗性纯化

本文提出了一种新颖的净化方法，即导向扩散模型净化（GDMP），旨在帮助保护深度神经网络分类器免受对抗攻击的影响。在各种数据集上进行的广泛实验表明，所提出的 GDMP 将由对抗攻击引起的扰动降至浅层范围，从而显着提高了分类的正确性，并提高了 5％的鲁棒性。

May, 2022

对抗净化的鲁棒扩散模型

我们提出了一种具有逆向过程的鲁棒性指导方法，该方法独立于预训练的扩散模型，在不重新训练或微调扩散模型的情况下实现了对抗训练策略，保留了更多的语义内容，并减轻了扩散模型的准确性和鲁棒性之间的权衡，从而为基于扩散模型的对抗净化方法提供了对新攻击的高效适应能力。通过大量实验证实，我们的方法达到了最先进的结果，并展现了对不同攻击的泛化能力。

Mar, 2024

基于扩散的对抗净化用于入侵检测

证明扩散模型在网络入侵检测中净化对抗样本方面的有效性，通过对扩散参数的全面分析，识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是，该研究揭示了扩散噪声和扩散步骤之间的关系，对该领域具有重要贡献。实验在两个数据集上进行，并针对 5 种对抗攻击进行了测试。实现代码公开可用。

Jun, 2024

ZeroPur: 简洁的无需训练的对抗净化

该研究提出了一种不需要进一步训练的简化对抗性图像的方法，称为 ZeroPur，通过引导位移和自适应投影将对抗性图像纳入自然图像流形，从而实现对各种未见对抗性攻击的防御，并在多个数据集上展示了最新的鲁棒性能。

Jun, 2024

Purify++: 用先进扩散模型和随机性控制改进扩散净化

对扩散净化方法进行了系统性探索，提出了一种新的扩散净化算法 Purify++，是目前对多种对抗攻击具有最先进防御效果的方法。

Oct, 2023

PuriDefense：随机本地隐式对抗净化来防御黑箱基于查询的攻击

传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响，要么会损害非对抗性输入的测试精度。为了解决这些挑战，我们提出了一种高效的防御机制，PuriDefense，它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净化，这些模型利用了本地隐式函数并重建了自然图像流形。我们的理论分析表明，通过将随机性引入净化中，这种方法缓慢了查询攻击的收敛速度。对 CIFAR-10 和 ImageNet 的大量实验证实了我们提出的基于净化器的防御机制的有效性，展示了在对查询攻击的鲁棒性方面的显着改进。

Jan, 2024

净化上的对抗性训练（AToP）：增强鲁棒性和泛化能力

在这篇论文中，研究人员提出了一种称为对抗训练纯化（AToP）的新框架，通过随机转换（RT）的扰动破坏和对抗损失下的纯化模型优化（FT）来加强深度神经网络对抗攻击的鲁棒性和泛化能力，并通过对 CIFAR-10、CIFAR-100 和 ImageNette 的广泛实验表明其在对抗攻击防御方面达到了最先进的结果和泛化能力。

Jan, 2024

信息屏蔽的对抗净化

我们提出了一种名为信息掩膜净化（IMPure）的新型对抗净化方法，该方法旨在广泛消除对抗性扰动，并在 ImageNet 数据集上通过三个分类器模型的广泛实验证明，我们的方法在对抗攻击方法方面取得了最先进的结果。

Nov, 2023