探索聊天模型的后门漏洞
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
借助大型语言模型(LLMs)的快速发展,已经开发出了基于 LLM 的代理程序,用于处理各种实际应用,包括金融、医疗和购物等。然而,目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁,即 backdoor 攻击,对 LLM-based 代理进行了初步研究,并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示,LLM-based 代理严重受到 backdoor 攻击的影响,表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。
Feb, 2024
在这篇论文中,我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同,我们的组合后门攻击(CBA)将多个触发关键词分散在不同的提示组件中,这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。
Oct, 2023
本文提出了一种新的方法,将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示,而不是目标标签,从而可以将后门引入广泛的下游任务中,而无需任何先前的知识,通过各种触发器类型的实验,论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型(如 BERT、XLNet、BART)是普适的,并且不可避免地引入了严重威胁。
Oct, 2021
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021
本研究提出了针对 NLP 模型的 “自然后门攻击”,对文本数据进行触发器生成,并研究了不同类型的触发器,最终在文本分类任务上实现了 100% 的后门攻击成功率和 0.83% 的牺牲。
Jun, 2020
我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效,攻击成功率高,在多种场景中超过 95%。令人担忧的是,我们的发现还表明,较大的模型对可转移的跨语言背门攻击更易受攻击,这也适用于主要在英语数据上进行预训练的 LLM,如 Llama2、Llama3 和 Gemma。此外,我们的实验表明,即使经过改述,触发器仍然有效,背门机制在 25 种语言的跨语言响应环境中证明高度有效,攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险,凸显有针对性的安全措施的迫切需求。
Apr, 2024
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
利用大型语言模型构建智能代理存在潜在的后门攻击风险,即使在可信数据上进行微调也无法防御,这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。
Jun, 2024