PoisonPrompt: 基于提示的大型语言模型的后门攻击
本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。
May, 2023
本文提出了 BadPrompt 算法,用于进行基于触发模式的后门攻击,其可以攻击连续提示模型,我们在五个数据集和两个连续提示模型上进行了评估,并展示了 BadPrompt 有效地攻击连续提示的能力,同时在干净的测试集上保持高性能,在增量配置下较基线模型表现更好。
Nov, 2022
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究,提出了 TrojPrompt 框架以解决现有的后门攻击问题,并在现实世界的黑盒预训练语言模型 API 中成功插入了木马,同时保持出色的性能。
Jun, 2023
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024