LLM 集成应用中的提示注入攻击与防御
本研究讨论了如何通过注入恶意提示,以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
本研究检验了大型语言模型中已存在的 Prompt Injection 攻击,设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术,并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。
Jun, 2023
大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效,本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用,使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析,并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性,对各种类型的快速注入攻击具有相当的抵抗能力,从而验证了其作为一种强大的人工智能安全防御策略的潜力。
Jan, 2024
通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致 ASR 更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法,使大型语言模型能够区分指令和外部内容,并忽略外部内容中的指令。实验结果表明,我们的黑盒防御方法可以有效降低 ASR,但无法完全阻止间接提示注入攻击,而我们的白盒防御方法可以将 ASR 几乎降低到零,对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。
Dec, 2023
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
Oct, 2023
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在 LLM 接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。
Jan, 2024
设计了一种新颖的闭盒信息泄露攻击框架 PLeak,用于优化对抗查询,以便当攻击者将其发送到目标 LLM 应用程序时,其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询,有效地泄露系统提示,并显著优于手动策划查询和修改自现有越狱攻击的优化查询。
May, 2024
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023