基于提示的后门攻击:探究语言模型的漏洞
本文提出了 BadPrompt 算法,用于进行基于触发模式的后门攻击,其可以攻击连续提示模型,我们在五个数据集和两个连续提示模型上进行了评估,并展示了 BadPrompt 有效地攻击连续提示的能力,同时在干净的测试集上保持高性能,在增量配置下较基线模型表现更好。
Nov, 2022
本文研究了 Prompt-based learning 模式的普适漏洞,发现加入特定的触发器可以完全控制和降低其性能,并提出了缓解攻击方法的潜在解决方案。
Apr, 2022
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
Oct, 2023
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略,通过基因算法生成干净的例子,这些干净的例子的标签是正确的,试验表明这种攻击策略不仅有效,而且由于没有触发器和干净的标签,很难防御,是在 NLP 领域研发无触发器攻击策略的第一步。
Nov, 2021
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究,提出了 TrojPrompt 框架以解决现有的后门攻击问题,并在现实世界的黑盒预训练语言模型 API 中成功插入了木马,同时保持出色的性能。
Jun, 2023
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
反复注入学习范例中的干扰,利用对比捷径注入方法(CSI)设计更强的捷径特征,使得清洁标签攻击在低毒性率下具有高效性和隐秘性。
Mar, 2024
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021