语言模型攻击技术
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在 LLM 接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。
Jan, 2024
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略(G2PIA),我们最大化纯文本和对抗文本之间的 KL 散度,从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。
Apr, 2024
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
我们提出了一种名为 prompt stealing attacks 的新攻击,该攻击旨在基于生成的答案窃取设计良好的 prompt,通过参数提取器和提示重构器实现,实验结果表明攻击的卓越性能,进一步引发关于大型语言模型安全问题的关注。
Feb, 2024
大型语言模型( LLMS ) 在现实世界应用中越来越多,但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集,为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试,并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外,我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。
Nov, 2023
通过使用聚焦技术,我们引入了一种对抗间接提示注入攻击的有效防御方法,该方法能够改进大型语言模型在识别多个输入源时的能力,并显著降低攻击成功率而对任务有效性影响最小。
Mar, 2024
研究了大型语言模型在机器翻译任务上的指令注入攻击,发现在某些条件下,更大的模型可能更容易受到成功攻击的影响,这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。
Mar, 2024