PROMPTFUZZ：利用模糊测试技术提升大型语言模型对提示注入攻击的稳健性测试

Sep, 2024

PROMPTFUZZ：利用模糊测试技术提升大型语言模型对提示注入攻击的稳健性测试

PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs

Jiahao Yu, Yangguang Shao, Hanwen Miao, Junzheng Shi, Xinyu Xing

TL;DR本研究针对大型语言模型（LLMs）在提示注入攻击下的安全性和可靠性问题，提出了一种名为PROMPTFUZZ的新型测试框架。通过模糊测试技术，PROMPTFUZZ能够系统性地评估LLMs的稳健性，并有效发现模型中的漏洞，从而为这些模型的实际应用提供了有效的安全保障。

Abstract

Large Language Models (LLMs) have gained widespread use in various applications due to their powerful capability to generate human-like text. However, Prompt Injection attacks, which involve overwriting a model's

发现论文，激发创造

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从Web中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型(LLMs)进行Prompt Injection攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

LLM集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的Prompt Injection攻击，设计了一种名为HouYi的黑盒Prompt Injection攻击技术，并发现其可造成诸如不受限制的任意LLM使用和简单的应用程序prompt窃取等严重影响。

Jun, 2023

狼穿羊皮：通用嵌套越狱引导轻易蒙骗大型语言模型

基于自动生成的破解提示，我们提出了ReNeLLM框架来改进大型语言模型的攻击成功率，同时降低时间成本；我们的研究揭示了当前防御方法在保护大型语言模型方面的不足，并从提示执行优先级的角度进行了详细的分析和讨论。

Nov, 2023

通过全球规模的提示破解竞赛揭示LLM系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准BIPIA来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致ASR更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将ASR几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

Jatmo：通过任务特定微调进行提示注入防御

本研究中，我们引入了一种名为Jatmo的方法，它可生成对注入攻击具有弹性的特定任务模型，并通过六个任务的实验证明，Jatmo模型在其特定任务上提供与标准LLMs相同质量的输出。

Dec, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了BenchmarkName，这是一个用于量化LLM安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的LLMs，包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出26%到41%之间的结果。我们进一步引入了安全效用权衡：将LLM条件化以拒绝不安全的提示可能导致LLM错误地拒绝回答良性提示，从而降低效用。我们建议使用False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的FRR。我们发现，许多LLMs能够与“边界线”良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了LLMs在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为LLMs的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但LLMs在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他LLMs。

Apr, 2024

ChatBug：由聊天模板引起的对齐LLM的常见漏洞

大型语言模型（LLMs）在遵循用户指令和进行对话方面具有重要意义。本文研究了聊天模板对LLMs安全对齐的影响，并发现了一个名为ChatBug的潜在漏洞。通过两种攻击方式，我们证明恶意用户可以利用ChatBug漏洞有效引导LLMs产生意外回应，并与现有越狱攻击结合提高攻击成功率。对抗性训练虽然可以有效减轻ChatBug漏洞，但牺牲了模型性能，因此需要平衡安全对齐和有用性之间的权衡。发展新的指令调优方法是未来研究的一个重要方向。

Jun, 2024

模型划图：评估对基于语言模型的编程助手的对抗攻击的影响

LLM-based编程助手可以加快编程速度，但可能引入更多安全漏洞。我们介绍了恶意编程提示（MaPP）攻击，通过向编程任务的提示中添加少量文本（小于500字节），我们展示了我们的提示策略如何使LLM在编写其他正确代码的同时添加漏洞。我们在七个常见LLM上评估了三个提示，并使用HumanEval基准测试发现我们的提示在广泛范围内有效，不需要针对不同LLM进行定制化。此外，最适合HumanEval的LLM也最适合遵循我们的恶意指令，这表明简单扩展语言模型无法防止MaPP攻击。通过16种情景中八个CWE的数据集，我们发现MaPP攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护LLM提示免受操纵的需求，并且需要对借助LLMs生成的代码进行严格审计。

Jul, 2024