本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。
May, 2023
本文针对基于 Prompt 学习的预训练语言模型 API 的安全问题进行了研究,提出了 TrojPrompt 框架以解决现有的后门攻击问题,并在现实世界的黑盒预训练语言模型 API 中成功插入了木马,同时保持出色的性能。
Jun, 2023
本文提出了一种基于 prompt 的对抗攻击方法,通过设计启发式算法和贪婪算法,在黑匣子场景下成功攻击了手动模板,并在多个分类任务中验证了其有效性和泛化能力。
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
LinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器(UATs),能够有效地攻击目标预训练语言模型(PLMs)和基于提示的微调模型(PFMs)并保持触发器标记中的自然性。
Mar, 2024
本文提出了 BadPrompt 算法,用于进行基于触发模式的后门攻击,其可以攻击连续提示模型,我们在五个数据集和两个连续提示模型上进行了评估,并展示了 BadPrompt 有效地攻击连续提示的能力,同时在干净的测试集上保持高性能,在增量配置下较基线模型表现更好。
Nov, 2022
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术,包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法,并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。
Mar, 2022
自动梯度方法生成高效、通用的提示注入数据,彰显梯度测试的重要性,尤其是对于防御机制。
本文提出了一种理论框架,以解释在零 / 少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于 perplexity 的注释无关模板选择方法,使我们能够提前预测提示性能。