基于提示的后门攻击：探究语言模型的漏洞

May, 2023

基于提示的后门攻击：探究语言模型的漏洞

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu

TL;DR本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

Abstract

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, →

prompt-based learning backdoor attacks clean-label attacks text classification natural language processing

发现论文，激发创造

BadPrompt: 连续提示的后门攻击

本文提出了 BadPrompt 算法，用于进行基于触发模式的后门攻击，其可以攻击连续提示模型，我们在五个数据集和两个连续提示模型上进行了评估，并展示了 BadPrompt 有效地攻击连续提示的能力，同时在干净的测试集上保持高性能，在增量配置下较基线模型表现更好。

Nov, 2022

探究基于提示学习范式的普遍性漏洞

本文研究了 Prompt-based learning 模式的普适漏洞，发现加入特定的触发器可以完全控制和降低其性能，并提出了缓解攻击方法的潜在解决方案。

Apr, 2022

PoisonPrompt: 基于提示的大型语言模型的后门攻击

本文研究了基于提示的大语言模型存在的后门安全威胁，并提出了一种名为 POISONPROMPT 的新型后门攻击方法，实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性，该研究强调了进一步研究这一领域的重要性。

Oct, 2023

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

基于干净标签的 NLP 无触发后门攻击

本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步。

Nov, 2021

PromptFix: 通过对抗性提示调整进行少样本后门移除

通过对软标记以及对抗优化的使用，提出一种名为 PromptFix 的新型反后门策略，适用于自然语言处理模型中的少样本情景，并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。

Jun, 2024

TrojPrompt：预训练语言模型的黑盒特洛伊攻击

本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究，提出了 TrojPrompt 框架以解决现有的后门攻击问题，并在现实世界的黑盒预训练语言模型 API 中成功插入了木马，同时保持出色的性能。

Jun, 2023

文本数据的自然后门攻击

本研究提出了针对 NLP 模型的 “自然后门攻击”，对文本数据进行触发器生成，并研究了不同类型的触发器，最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。

Jun, 2020

基于对比的快捷方式：在基于提示的学习中有效且隐秘的干净标签攻击

反复注入学习范例中的干扰，利用对比捷径注入方法（CSI）设计更强的捷径特征，使得清洁标签攻击在低毒性率下具有高效性和隐秘性。

Mar, 2024

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021