研究多轮 LLM 交互的提示泄露效应和黑盒防御
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致 ASR 更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法,使大型语言模型能够区分指令和外部内容,并忽略外部内容中的指令。实验结果表明,我们的黑盒防御方法可以有效降低 ASR,但无法完全阻止间接提示注入攻击,而我们的白盒防御方法可以将 ASR 几乎降低到零,对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。
Dec, 2023
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
对三种 LLM(Large Language Models)技术(Low-Rank Adaptation、Soft Prompt Tuning 和 In-Context Learning)在隐私和安全方面的鲁棒性进行评估,结果表明在 LLM 适应性中不存在绝对的隐私和安全解决方案。
Oct, 2023
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
我们介绍了一种黑盒提示优化方法,利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆,我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示,即 (1) 最小程度地与训练数据重叠,以避免直接向模型呈现解决方案;(2) 最大化受害模型输出与训练数据的重叠,旨在诱使受害模型输出训练数据,我们观察到,与基于前缀 - 后缀测量的基准相比,我们的基于指令的提示生成的输出与训练数据重叠度更高达 23.7%,我们的发现表明,(1) 基于指令的模型可以暴露出与其基础模型一样多的预训练数据,甚至更多;(2) 原始训练数据之外的上下文可以导致信息泄漏;(3) 使用其他 LLM 提出的指令可能会开辟一种新的自动攻击的途径,需要进一步研究和探索。代码可以在此 URL 找到。
Mar, 2024