InjecAgent：在工具集成的大型语言模型代理中评估间接提示注入

Mar, 2024

InjecAgent：在工具集成的大型语言模型代理中评估间接提示注入

InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents

Qiusi Zhan, Zhixiang Liang, Zifan Ying, Daniel Kang

TL;DR通过引入 InjecAgent 基准测试，评估 LLM agents 对 IPI attacks 的脆弱性，结果显示 LLM agents 易受攻击，ReAct-prompted GPT-4 在 24% 的情况下易受攻击，并结合加强的黑客提示进一步提高攻击成功率，对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。

Abstract

Recent work has embodied llms as agents, allowing them to access tools, perform actions, and interact with external content (e.g., emails or websites). However, external content introduces the risk of indirect prompt injection (IPI) attacks, where malicious instructions are embedded wi

llms injecagent ipi attacks vulnerability benchmark

发现论文，激发创造

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

LLM 集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的 Prompt Injection 攻击，设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术，并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。

Jun, 2023

为指导调整的大型语言模型添加虚拟提示注入

我们提出了虚拟提示注入（VPI）技术，用于调整指令的大型语言模型（LLM）。VPI 允许攻击者指定虚拟提示，在特定触发场景下引导模型行为，而无需显式地注入模型输入。我们通过污染模型的指令调整数据，演示了 VPI 的风险，并建议采用数据过滤作为一种有效的防御手段。

Jul, 2023

张量信任：从在线游戏的可解释提示注入攻击

大型语言模型（ LLMS ）在现实世界应用中越来越多，但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集，为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试，并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外，我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。

Nov, 2023

基于优化的提示注入攻击 LLM-as-a-Judge

LLM-as-a-Judge 与大型语言模型相关的文本信息，存在着优于传统人工评估的表现，并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法，精确地针对 LLM-as-a-Judge 的决策过程进行攻击，利用优化算法自动化生成对抗序列，实现有针对性和有效的模型评估操纵，相较于手工注入攻击，本方法表现出优越的效果，对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验，展示了 JudgeDeceiver 在不同案例中改变决策结果的能力，强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。

Mar, 2024