PLeak：大规模语言模型应用中的提示泄露攻击

MMMay, 2024

PLeak：大规模语言模型应用中的提示泄露攻击

PLeak: Prompt Leaking Attacks against Large Language Model Applications

Bo Hui, Haolin Yuan, Neil Gong, Philippe Burlina, Yinzhi Cao

TL;DR设计了一种新颖的闭盒信息泄露攻击框架 PLeak，用于优化对抗查询，以便当攻击者将其发送到目标 LLM 应用程序时，其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询，有效地泄露系统提示，并显著优于手动策划查询和修改自现有越狱攻击的优化查询。

Abstract

large language models (LLMs) enable a new ecosystem with many downstream applications, called llm applications, with different natural language processing tasks. The functionality and performance of an LLM applic

large language models llm applications prompt leaking pleak system prompts

发现论文，激发创造

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

LLM 集成应用中的提示注入攻击与防御

大型语言模型在 LLM 集成应用中存在提示注入攻击的安全漏洞，现有研究有限且缺乏系统性，本文提出了一般性的框架来理解和设计这种攻击，同时也提出了对应的防御框架，并基于 10 个 LLM 和 7 个任务进行了系统评估。

Oct, 2023

LLM 集成应用的提示注入攻击

本研究检验了大型语言模型中已存在的 Prompt Injection 攻击，设计了一种名为 HouYi 的黑盒 Prompt Injection 攻击技术，并发现其可造成诸如不受限制的任意 LLM 使用和简单的应用程序 prompt 窃取等严重影响。

Jun, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

大规模语言模型的提示窃取攻击

我们提出了一种名为 prompt stealing attacks 的新攻击，该攻击旨在基于生成的答案窃取设计良好的 prompt，通过参数提取器和提示重构器实现，实验结果表明攻击的卓越性能，进一步引发关于大型语言模型安全问题的关注。

Feb, 2024

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

研究多轮 LLM 交互的提示泄露效应和黑盒防御

对大型语言模型（LLMs）中的提示泄漏进行了研究，发现在多轮 LLM 交互中存在漏洞和泄漏，并提出了防御策略。

Apr, 2024

Signed-Prompt: 防止 LLM 集成应用程序中的 Prompt 注入攻击的新方法

大语言模型中快速注入攻击的关键挑战以及引起人工智能领域日益关注。传统的防御策略不够有效，本文提出了一种新颖的解决方案 ——“签名提示”。该方法通过将敏感指令签名并由授权用户使用，使得语言模型可以辨别可信指令来源。本文详细介绍了快速注入攻击模式的分析，并通过提示工程和语言模型的微调来实现 “签名提示” 概念的基本框架和实现。实验证明了 “签名提示” 方法的有效性，对各种类型的快速注入攻击具有相当的抵抗能力，从而验证了其作为一种强大的人工智能安全防御策略的潜力。

Jan, 2024