一种基于提示的对抗性样本生成和鲁棒性增强方法
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
本文提出了一种基于 prompt 的对抗攻击方法,通过设计启发式算法和贪婪算法,在黑匣子场景下成功攻击了手动模板,并在多个分类任务中验证了其有效性和泛化能力。
Jun, 2023
该研究通过 Model-tuning Via Prompts (MVP) 修改输入而非模型以适应下游任务,在三个分类数据集上提高对抗性的稳健性,超过标准方法平均 8%和对抗性训练的最新防御技术 3.5%。研究结果发现多层感知器 (MLP) 易受对抗性扰动的影响归因于预训练和微调任务之间的不匹配和 MLP 参数的随机初始化。
Mar, 2023
本研究使用 adversarial prompts 对 Large Language Models 进行度量,并分析了 prompt 鲁棒性及其传递性,为 prompt 组合提供了实用性建议。
Jun, 2023
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
Mar, 2024
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
通过使用 AdvPrompter 方法,本文提出了一种用于生成人类可读的敌对提示的新方法,生成的提示可以在几秒钟内完成,比现有的基于优化的方法快 800 倍,该方法使得大型语言模型(LLMs)更加抵抗破解攻击而实现高性能。
Apr, 2024
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
我们提出了一种上下文感知对抗攻击方法,通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本,实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。
Sep, 2023