不降低性能防御预训练语言模型受到的对抗词替换攻击

ACLMay, 2021

不降低性能防御预训练语言模型受到的对抗词替换攻击

Defending Pre-trained Language Models from Adversarial Word Substitutions Without Performance Sacrifice

Rongzhou Bao, Jiayi Wang, Hai Zhao

TL;DR本文提出了一种紧凑且性能不受影响的框架 ADFAR，采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本，并应用了频率感知的随机化过程防御对抗词置换攻击，在各种任务上显着优于其他防御方法，且没有损害 PrLMs 的整体性能。

Abstract

pre-trained contextualized language models (PrLMs) have led to strong performance gains in downstream natural language understanding tasks. However, PrLMs can still be easily fooled by adversarial word substitution

pre-trained contextualized language models adversarial word substitution anomaly detection multi-task learning frequency-aware randomization

发现论文，激发创造

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

预训练语言模型的对抗攻击建模为序列决策

本文通过将 PLMs 的对抗攻击任务形式化为一个序列决策问题，并采用强化学习方法找到适当的攻击路径，提出了 SDM-Attack，其在攻击成功率，修改率和语义相似性上都表现出色，并且分析验证了其通用性和可转移性。

May, 2023

通过随机化潜在表示欺骗文本欺骗者

通过随机化输入的潜在表示，我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制，主要目标是困惑生成对抗样本的过程，从而达到误导对手的效果，并在两个基准数据集上证明近乎最先进的防御能力。

Oct, 2023

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

区分自然和非自然对抗样本以获得更强大的预训练语言模型

本文通过提出一种异常检测器来评估预训练语言模型的鲁棒性，发现现有的对鲁棒性的评估方法是基于并不常见的对抗样本，进而将该方法用于数据增强和防御方案，取得了比其他方法更高的准确率。

Mar, 2022

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安全性与计算机视觉有何不同？我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

用频率引导的词替换技术检测文本对抗样本

本文提出了基于词频的敌对样本检测方法（FGWS），能够通过对置换词和相应替换词之间的词频差异进行检测，实验结果表明，FGWS 能够在 SST-2 和 IMDb 情感数据集上准确检测到敌对样本，并相比最近提出的扰动辨别框架的表现提升了 13.0% F1。

Apr, 2020