神经执行：针对提示注入攻击的学习（和对学习的利用）执行触发器

Mar, 2024

神经执行：针对提示注入攻击的学习（和对学习的利用）执行触发器

Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks

Dario Pasquini, Martin Strohmeier, Carmela Troncoso

TL;DR我们引入了一种新型的注入攻击家族，被称为神经执行。与依赖手工制作字符串（例如 “忽略之前的指令并...”）的已知攻击不同，我们展示了将执行触发器的创建概念化为可微分的搜索问题，并使用基于学习的方法自动生成它们的可能性。我们的结果表明，一个有动机的对手可以伪造出比当前手工制作的触发器效果显著更好，并且在形状、属性和功能上具有固有的灵活性。在这方面，我们展示了攻击者可以设计和生成能够通过多阶段预处理管道持久存在的神经执行。更重要的是，我们的研究结果表明，攻击者可以产生与任何已知攻击明显不同的触发器形式，规避现有的基于黑名单的检测和净化方法。

Abstract

We introduce a new family of prompt injection attacks, termed neural exec. Unlike known attacks that rely on handcrafted strings (e.g., "Ignore previous instructions and..."), we show that it is possible to conce

prompt injection attacks neural exec execution triggers learning-based methods forge triggers

发现论文，激发创造

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

探究基于提示学习范式的普遍性漏洞

本文研究了 Prompt-based learning 模式的普适漏洞，发现加入特定的触发器可以完全控制和降低其性能，并提出了缓解攻击方法的潜在解决方案。

Apr, 2022

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

面向恶意软件检测的图神经网络语义保持强化学习攻击

本篇论文提出了一种利用强化学习生成具有语义保持（即功能保持）特性的恶意软件攻击方法，以对抗黑盒图神经网络（GNN）对恶意软件的检测，实验结果表明该方法可以显著提高逃避检测率。

Sep, 2020

张量信任：从在线游戏的可解释提示注入攻击

大型语言模型（ LLMS ）在现实世界应用中越来越多，但仍然容易受到恶意注入攻击的风险。本研究提出了一个由 Tensor Trust 在线游戏的玩家创造的超过 126,000 个注入攻击和 46,000 个注入攻击的防御的数据集，为研究者研究这个问题提供帮助。这是目前最大的人为生成的用于指令跟随 LLMs 的对抗示例数据集。我们利用数据集创建了抵抗两种类型注入攻击的基准测试，并展示了很多模型对于 Tensor Trust 数据集中的攻击策略是脆弱的。此外，我们还展示了数据集中一些攻击策略在不同约束条件的部署 LLMs 应用中也具有普适性。我们在此 https URL 公布了所有的数据和源代码。

Nov, 2023

通用对抗触发器针对自然语言处理的攻击与分析

本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers)，使用梯度导向的搜索过程寻找跨任务短小的触发序列，并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下，对模型的全局行为也提供了一种分析方法。

Aug, 2019

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023