区分自然和非自然对抗样本以获得更强大的预训练语言模型

ACLMar, 2022

区分自然和非自然对抗样本以获得更强大的预训练语言模型

Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model

Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao

TL;DR本文通过提出一种异常检测器来评估预训练语言模型的鲁棒性，发现现有的对鲁棒性的评估方法是基于并不常见的对抗样本，进而将该方法用于数据增强和防御方案，取得了比其他方法更高的准确率。

Abstract

Recently, the problem of robustness of pre-trained language models (PrLMs) has received increasing research interest. Latest studies on adversarial attacks achieve high attack success rates against PrLMs, claimin

pre-trained language models robustness adversarial attacks anomaly detector data augmentation

发现论文，激发创造

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

自然语言对抗攻击中的样本易攻性

本论文提出了一种针对 NLP 攻击的样本攻击性 / 鲁棒性的定义扩展，实验证明深度学习检测器可以更好地识别针对未知目标模型最易受攻击和最具鲁棒性的样本，但是不同 NLP 攻击方法中没有一致性，解释了攻击性检测方法在攻击方法之间缺乏可移植性的现象。

Jun, 2023

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

不降低性能防御预训练语言模型受到的对抗词替换攻击

本文提出了一种紧凑且性能不受影响的框架 ADFAR，采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本，并应用了频率感知的随机化过程防御对抗词置换攻击，在各种任务上显着优于其他防御方法，且没有损害 PrLMs 的整体性能。

May, 2021

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022