PoisonPrompt: 基于提示的大型语言模型的后门攻击

Oct, 2023

PoisonPrompt: 基于提示的大型语言模型的后门攻击

PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models

Hongwei Yao, Jian Lou, Zhan Qin

TL;DR本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Abstract

prompts have significantly improved the performance of pretrained Large Language Models (LLMs) on various downstream tasks recently, making them increasingly indispensable for a diverse range of LLM application scenarios. However, the →

pretrained large language models prompts backdoor vulnerability poisonprompt security threats

发现论文，激发创造

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

BadPrompt: 连续提示的后门攻击

本文提出了 BadPrompt 算法，用于进行基于触发模式的后门攻击，其可以攻击连续提示模型，我们在五个数据集和两个连续提示模型上进行了评估，并展示了 BadPrompt 有效地攻击连续提示的能力，同时在干净的测试集上保持高性能，在增量配置下较基线模型表现更好。

Nov, 2022

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

PLeak：大规模语言模型应用中的提示泄露攻击

设计了一种新颖的闭盒信息泄露攻击框架 PLeak，用于优化对抗查询，以便当攻击者将其发送到目标 LLM 应用程序时，其响应会泄露自己的系统提示。通过逐步优化系统提示的每个令牌的对抗性查询，有效地泄露系统提示，并显著优于手动策划查询和修改自现有越狱攻击的优化查询。

May, 2024

TrojPrompt：预训练语言模型的黑盒特洛伊攻击

本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究，提出了 TrojPrompt 框架以解决现有的后门攻击问题，并在现实世界的黑盒预训练语言模型 API 中成功插入了木马，同时保持出色的性能。

Jun, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

PromptFix: 通过对抗性提示调整进行少样本后门移除

通过对软标记以及对抗优化的使用，提出一种名为 PromptFix 的新型反后门策略，适用于自然语言处理模型中的少样本情景，并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。

Jun, 2024

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024