Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法

Jan, 2024

Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法

Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications

Xuchen Suo

TL;DR大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效，本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用，使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析，并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性，对各种类型的快速注入攻击具有相当的抵抗能力，从而验证了其作为一种强大的人工智能安全防御策略的潜力。

Abstract

The critical challenge of prompt injection attacks in large language models (LLMs) integrated applications, a growing concern in the Artificial Intelligence (AI) field. Such attacks, which manipulate LLMs through

prompt injection attacks large language models signed-prompt method ai security defense strategy

发现论文，激发创造

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

LLM 集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的 Prompt Injection 攻击，设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术，并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。

Jun, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

PLeak：大规模语言模型应用中的提示泄露攻击

设计了一种新颖的闭盒信息泄露攻击框架 PLeak，用于优化对抗查询，以便当攻击者将其发送到目标 LLM 应用程序时，其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询，有效地泄露系统提示，并显著优于手动策划查询和修改自现有越狱攻击的优化查询。

May, 2024

通过突出特征抵御间接提示注入攻击

通过使用聚焦技术，我们引入了一种对抗间接提示注入攻击的有效防御方法，该方法能够改进大型语言模型在识别多个输入源时的能力，并显著降低攻击成功率而对任务有效性影响最小。

Mar, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023