大规模语言模型的提示窃取攻击

Feb, 2024

Prompt Stealing Attacks Against Large Language Models

Zeyang Sha, Yang Zhang

TL;DR我们提出了一种名为 prompt stealing attacks 的新攻击，该攻击旨在基于生成的答案窃取设计良好的 prompt，通过参数提取器和提示重构器实现，实验结果表明攻击的卓越性能，进一步引发关于大型语言模型安全问题的关注。

Abstract

The increasing reliance on large language models (LLMs) such as ChatGPT in various fields emphasizes the importance of ``prompt engineering,'' a technology to improve the quality of model outputs. With companies

large language models prompt engineering prompt stealing attacks parameter extractor prompt reconstructor

发现论文，激发创造

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

提示信息不应视为机密信息：系统性地测量提示信息提取攻击的成功率

本文介绍了一种用于测量和攻击大型语言模型中 Prompt 的框架，通过实验展示了文本攻击可以高概率地成功提取 prompt。

Jul, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

PLeak：大规模语言模型应用中的提示泄露攻击

设计了一种新颖的闭盒信息泄露攻击框架 PLeak，用于优化对抗查询，以便当攻击者将其发送到目标 LLM 应用程序时，其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询，有效地泄露系统提示，并显著优于手动策划查询和修改自现有越狱攻击的优化查询。

May, 2024

大型语言模型中开发提示工程的潜力释放：综合回顾

该综述研究了快速建模在发挥大型语言模型的能力方面的关键作用，探讨了角色激励、单次指示、观点链、观点树等快速建模的基本原则和高级方法，并阐述了外部插件如何协助此任务并减少机器幻觉，强调了深入了解结构和代理角色在人工智能生成内容工具中的重要性，最后讨论了在教育和编程等领域中应用快速建模的实践和潜力。

Oct, 2023

反演上下文学习：通过破坏理解提示

通过对大语言模型进行随机组成的实验，研究了任务描述、示例输入、标签、行内指令等多个因素对模型性能的影响，发现重复文本、大型模型以及任务和行内指令对模型性能提升具有积极影响。

Apr, 2024

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

提示工程师的提示工程

通过构建元提示（meta-prompt）从而更有效地引导大型语言模型（LLMs）进行自动提示工程，进而优化其性能。

Nov, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024