PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

Sep, 2022

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

PromptAttack: Prompt-based Attack for Language Models via Gradient Search

Yundi Shi, Piji Li, Changchun Yin, Zhaoyang Han, Lu Zhou...

TL;DR本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Abstract

As the pre-trained language models (PLMs) continue to grow, so do the hardware and data requirements for fine-tuning PLMs. Therefore, the researchers have come up with a lighter method called \textit{prompt learning

pre-trained language models prompt learning security issue malicious prompt template few-shot scenarios

发现论文，激发创造

基于启发式贪婪的对话式学习模型中的对抗攻击

本文提出了一种基于 prompt 的对抗攻击方法，通过设计启发式算法和贪婪算法，在黑匣子场景下成功攻击了手动模板，并在多个分类任务中验证了其有效性和泛化能力。

Jun, 2023

TrojPrompt：预训练语言模型的黑盒特洛伊攻击

本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究，提出了 TrojPrompt 框架以解决现有的后门攻击问题，并在现实世界的黑盒预训练语言模型 API 中成功插入了木马，同时保持出色的性能。

Jun, 2023

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

LinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器（UATs），能够有效地攻击目标预训练语言模型（PLMs）和基于提示的微调模型（PFMs）并保持触发器标记中的自然性。

Mar, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

大规模语言模型的提示窃取攻击

我们提出了一种名为 prompt stealing attacks 的新攻击，该攻击旨在基于生成的答案窃取设计良好的 prompt，通过参数提取器和提示重构器实现，实验结果表明攻击的卓越性能，进一步引发关于大型语言模型安全问题的关注。

Feb, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023