MaskPure: 基于随机纯净化的文本对抗防御的改进

Jun, 2024

MaskPure: 基于随机纯净化的文本对抗防御的改进

MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification

Harrison Gietz, Jugal Kalita

TL;DR通过扩展受扩散过程启发的输入文本纯化方法，我们提出了一种名为 MaskPure 的新方法，无需对抗分类器进行训练且不需要攻击类型知识，它在同类防御方法中显示出卓越的稳健性和可靠性，同时证明了它的可证实稳健性。

Abstract

The improvement of language model robustness, including successful defense against adversarial attacks, remains an open problem. In computer vision settings, the stochastic noising and de-noising process provided

language model robustness adversarial attacks diffusion models nlp setting maskpure algorithm

发现论文，激发创造

对抗文本净化：防御的大型语言模型方法

通过利用大型语言模型（LLMs）的生成能力，我们提出了一种新颖的对抗文字净化方法，以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本，从而实现语义相似且正确分类的净化示例恢复。在各种分类器上，我们的方法表现出卓越的性能，在攻击下平均提高了 65% 的准确率。

Feb, 2024

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

Purify++: 用先进扩散模型和随机性控制改进扩散净化

对扩散净化方法进行了系统性探索，提出了一种新的扩散净化算法 Purify++，是目前对多种对抗攻击具有最先进防御效果的方法。

Oct, 2023

对抗净化的扩散模型

本文提出了 DiffPure，使用扩散模型进行过去神经网络的抵御攻击，结果表明它在三个图像数据集上优于现有的对抗训练和对抗净化方法，通常差距很大。

May, 2022

信息屏蔽的对抗净化

我们提出了一种名为信息掩膜净化（IMPure）的新型对抗净化方法，该方法旨在广泛消除对抗性扰动，并在 ImageNet 数据集上通过三个分类器模型的广泛实验证明，我们的方法在对抗攻击方法方面取得了最先进的结果。

Nov, 2023

DiffuseDef: 对抗攻击下的改进鲁棒性

通过结合迁移学习、扰动模型和集成学习技术，我们提出了一种新颖和灵活的文本分类对抗防御方法 DiffuseDef，它在编码器和分类器之间引入扩散层作为去噪器，经过迭代去噪和集成生成鲁棒的文本表示。实验证明，DiffuseDef 在各种对抗性攻击中表现优异，实现了最先进的性能。

Jun, 2024

扩散去噪作为清洗标签中毒的认证防御

我们提出了一种经过认证的防御方法来对抗无标签污染攻击，通过使用扩散模型对受损的训练数据进行处理，我们在七种无标签污染攻击中将攻击成功率降低到 0-16%，同时几乎不影响测试准确率。与现有的对抗无标签攻击的防御方法相比，我们的防御方法在降低攻击成功率和保持模型效用方面表现最好。我们的结果强调未来需要研究开发更强大的无标签攻击方法，并将我们的认证而实用的防御方法作为评估这些攻击方法的强有力的基准。

Mar, 2024

语言引导的对抗净化

通过使用生成模型进行对抗性净化，可以展示出很强的对抗性防御性能。我们介绍了一种新的框架，即语言引导对抗净化（LGAP），利用预训练的扩散模型和字幕生成器来防御对抗性攻击。通过生成图像的字幕，我们的方法首先生成一个字幕，然后通过扩散网络来指导对抗性净化过程。我们的方法在对抗性攻击下经过评估，证明了其提高对抗性鲁棒性的有效性。我们的结果表明，LGAP 的性能优于大多数现有的对抗性防御技术，而不需要专门的网络训练，突显了在大规模数据集上训练的模型的广泛适用性，为进一步的研究方向提供了有希望的方向。

Sep, 2023

基于扩散的对抗净化用于入侵检测

证明扩散模型在网络入侵检测中净化对抗样本方面的有效性，通过对扩散参数的全面分析，识别最佳配置以最大限度地提高对抗鲁棒性而对正常性能的影响最小。重要的是，该研究揭示了扩散噪声和扩散步骤之间的关系，对该领域具有重要贡献。实验在两个数据集上进行，并针对 5 种对抗攻击进行了测试。实现代码公开可用。

Jun, 2024

PuriDefense：随机本地隐式对抗净化来防御黑箱基于查询的攻击

传统的防御机制如对抗训练、梯度掩盖和输入转换要么会对计算成本造成巨大的影响，要么会损害非对抗性输入的测试精度。为了解决这些挑战，我们提出了一种高效的防御机制，PuriDefense，它在较低的推理成本下使用一组轻量级净化模型进行随机的补丁净化，这些模型利用了本地隐式函数并重建了自然图像流形。我们的理论分析表明，通过将随机性引入净化中，这种方法缓慢了查询攻击的收敛速度。对 CIFAR-10 和 ImageNet 的大量实验证实了我们提出的基于净化器的防御机制的有效性，展示了在对查询攻击的鲁棒性方面的显着改进。

Jan, 2024