使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
本研究提出了一种名为 ProAttack 的新方法,用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击,从而对模型引入有针对性的漏洞,该方法使用提示本身作为触发器,并确保正确标记给定的样本,可以提高后门攻击的隐蔽性。
May, 2023
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
我们的研究论文首次提出了针对与不受信任的定制大型语言模型(例如 GPTs)集成的应用程序的指令后门攻击,这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中,并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型(如 GPTs)的脆弱性和潜在风险。
Feb, 2024
本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略,通过提出的基于生成模型的攻击方法 BGMAttack,证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估,以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当,但更隐蔽。
Apr, 2023
通过对软标记以及对抗优化的使用,提出一种名为 PromptFix 的新型反后门策略,适用于自然语言处理模型中的少样本情景,并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。
Jun, 2024
本文提出一个恶意提示模板构造方法(PromptAttack)来探究预训练语言模型(PLMs)的安全性能。对三个数据集和三个 PLMs 进行广泛实验,证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验,验证了我们的方法在少量样本情境下也可以适用。
Sep, 2022
本文提出了一种基于 prompt 的对抗攻击方法,通过设计启发式算法和贪婪算法,在黑匣子场景下成功攻击了手动模板,并在多个分类任务中验证了其有效性和泛化能力。
Jun, 2023
该研究提出了一种称为 NOTABLE 的可转移后门攻击方法,该方法通过适应性 “verbalizer” 将诱饵绑定到特定单词上来将后门注入到 PLM 的编码器中,从而实现对下游任务和提示策略的独立性,并在六个 NLP 任务中实现了优越的攻击性能和鲁棒性。
本文提出一种基于提示的文本生成方法(PTG),采用预训练语言模型,在面对数据匮乏的情况下通过学习一组源提示并将其转移为目标提示执行目标生成任务,设计了一个自适应注意机制以得出目标提示,实验结果表明 PTG 针对多个任务产生了有竞争力的结果,源提示已开放并可用于未来研究。
May, 2022