大型语言模型上的早期提示注入攻击分类

Jan, 2024

大型语言模型上的早期提示注入攻击分类

An Early Categorization of Prompt Injection Attacks on Large Language Models

Sippo Rossi, Alisia Marianne Michel, Raghava Rao Mukkamala, Jason Bennett Thatcher

TL;DR大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Abstract

large language models and ai chatbots have been at the forefront of democratizing artificial intelligence. However, the releases of ChatGP

large language models ai chatbots democratizing artificial intelligence prompt injections vulnerabilities

发现论文，激发创造

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

评估 200 + 定制 GPT 的提示注入风险

本文提供了一份对 AI 自定义 GPT 模型中提示注入的分析，并评估了此类攻击的可能缓解措施，结果强调了在设计和部署可定制的 GPT 模型时迫切需要强大的安全框架，以确保 GPT 定制化的好处不会以安全和隐私的牺牲为代价。

Nov, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

大型语言模型的上下文注入攻击

通过在聊天系统中引入虚构的上下文，利用大型语言模型中的错误分类和上下文混淆的问题，可以进行上下文注入攻击，破坏实时交互的大型语言模型的安全性。研究发现了进行上下文注入攻击的策略并验证了其高成功率，同时提出了攻击检测和开发更安全模型的可能对策。

May, 2024

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

LLM 集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的 Prompt Injection 攻击，设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术，并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。

Jun, 2023

Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法

大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效，本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用，使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析，并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性，对各种类型的快速注入攻击具有相当的抵抗能力，从而验证了其作为一种强大的人工智能安全防御策略的潜力。

Jan, 2024