多模式大型语言模型的测试期后门攻击
最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。
Apr, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024
本研究提出了一种基于深度模型突变测试的新型防御方法,可以在 char-level,word-level,sentence-level 以及 style-level 水平上检测恶意后门样本,并在三个基准数据集和三个样式转换数据集上表现出优异的效果。
Jan, 2023
我们研究了后门攻击,使用语言模型自动插入多样化的基于样式的触发器到文本中,并提出了一种毒素选择技术来改善攻击的效果,同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率,且几乎不需要训练而且非常有效。
Oct, 2023
使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集,攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁,需要更多关注和深入研究。
Jun, 2024
提出一种只需对干净模型进行最小修改(特别是输出层)以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本,并引入一种新的后门攻击方法来实现。在 MNIST,CIFAR-10,GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。
Mar, 2024
本论文提出了一种新的后门攻击方法 UOR,通过将手动选择转化为自动优化,定义了毒化监督对比学习,使用梯度搜索选择适当的触发词并针对不同 PLMs 和词汇表进行自适应,取得了比手动方法更好的攻击表现,并证明了该方法的普适性。
May, 2023
我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效,攻击成功率高,在多种场景中超过 95%。令人担忧的是,我们的发现还表明,较大的模型对可转移的跨语言背门攻击更易受攻击,这也适用于主要在英语数据上进行预训练的 LLM,如 Llama2、Llama3 和 Gemma。此外,我们的实验表明,即使经过改述,触发器仍然有效,背门机制在 25 种语言的跨语言响应环境中证明高度有效,攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险,凸显有针对性的安全措施的迫切需求。
Apr, 2024