对抗文本净化：防御的大型语言模型方法

KDDFeb, 2024

对抗文本净化：防御的大型语言模型方法

Adversarial Text Purification: A Large Language Model Approach for Defense

Raha Moraffah, Shubh Khandelwal, Amrita Bhattacharjee, Huan Liu

TL;DR通过利用大型语言模型（LLMs）的生成能力，我们提出了一种新颖的对抗文字净化方法，以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本，从而实现语义相似且正确分类的净化示例恢复。在各种分类器上，我们的方法表现出卓越的性能，在攻击下平均提高了 65% 的准确率。

Abstract

adversarial purification is a defense mechanism for safeguarding classifiers against adversarial attacks without knowing the type of attacks or training of the classifier. These techniques characterize and elimin

adversarial purification text classifiers adversarial attacks adversarial text purification prompt engineering

发现论文，激发创造

语言引导的对抗净化

通过使用生成模型进行对抗性净化，可以展示出很强的对抗性防御性能。我们介绍了一种新的框架，即语言引导对抗净化（LGAP），利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕，我们的方法首先生成一个字幕，然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估，证明了其提高对抗性鲁棒性的有效性。我们的结果表明，LGAP 的性能优于大多数现有的对抗性防御技术，而不需要专门的网络训练，突显了在大规模数据集上训练的模型的广泛适用性，为进一步的研究方向提供了有希望的方向。

Sep, 2023

对抗净化的扩散模型

本文提出了 DiffPure，使用扩散模型进行过去神经网络的抵御攻击，结果表明它在三个图像数据集上优于现有的对抗训练和对抗净化方法，通常差距很大。

May, 2022

MaskPure: 基于随机纯净化的文本对抗防御的改进

通过扩展受扩散过程启发的输入文本纯化方法，我们提出了一种名为 MaskPure 的新方法，无需对抗分类器进行训练且不需要攻击类型知识，它在同类防御方法中显示出卓越的稳健性和可靠性，同时证明了它的可证实稳健性。

Jun, 2024

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

ZeroPur: 简洁的无需训练的对抗净化

该研究提出了一种不需要进一步训练的简化对抗性图像的方法，称为 ZeroPur，通过引导位移和自适应投影将对抗性图像纳入自然图像流形，从而实现对各种未见对抗性攻击的防御，并在多个数据集上展示了最新的鲁棒性能。

Jun, 2024

信息屏蔽的对抗净化

我们提出了一种名为信息掩膜净化（IMPure）的新型对抗净化方法，该方法旨在广泛消除对抗性扰动，并在 ImageNet 数据集上通过三个分类器模型的广泛实验证明，我们的方法在对抗攻击方法方面取得了最先进的结果。

Nov, 2023

基于扩散的对抗净化用于入侵检测

证明扩散模型在网络入侵检测中净化对抗样本方面的有效性，通过对扩散参数的全面分析，识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是，该研究揭示了扩散噪声和扩散步骤之间的关系，对该领域具有重要贡献。实验在两个数据集上进行，并针对 5 种对抗攻击进行了测试。实现代码公开可用。

Jun, 2024

基于扩散模型的数据驱动电力系统事件分类器的对抗纯化

通过扩散模型提出的对抗净化方法在对抗攻击下大幅提高了事件分类器的准确率，满足实时操作需求，同时减小了原始和受损的数据之间的距离，降低了对抗攻击的影响。

Nov, 2023

Purify++: 用先进扩散模型和随机性控制改进扩散净化

对扩散净化方法进行了系统性探索，提出了一种新的扩散净化算法 Purify++，是目前对多种对抗攻击具有最先进防御效果的方法。

Oct, 2023

MalPurifier：针对逃避攻击的对抗净化增强 Android 恶意软件检测

机器学习在 Android 恶意软件检测方面取得了显著应用，然而最近的研究揭示了基于机器学习的检测系统对规避攻击的固有弱点。本文介绍了一种新型的 Android 恶意软件检测方法，MalPurifier，它利用敌对净化以独立消除扰动，从而在轻量灵活的方式下实现攻击缓解。实验结果表明，MalPurifier 优于最先进的防御方法，在 37 种规避攻击下，实现了超过 90.91% 的准确率，并且能够轻松扩展到其他检测器中，提供了实施的灵活性和鲁棒性。

Dec, 2023