张量信任：从在线游戏的可解释提示注入攻击

Nov, 2023

张量信任：从在线游戏的可解释提示注入攻击

Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game

Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey...

TL;DR大型语言模型（ LLMS ）在现实世界应用中越来越多，但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集，为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试，并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外，我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。

Abstract

While large language models (LLMs) are increasingly being used in real-world applications, they remain vulnerable to prompt injection attacks: malicious third party prompts that subvert the intent of the system d

large language models prompt injection attacks defenses tensor trust benchmark

发现论文，激发创造

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

研究了大型语言模型在机器翻译任务上的指令注入攻击，发现在某些条件下，更大的模型可能更容易受到成功攻击的影响，这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。

Mar, 2024

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023