在指导调整期间学习对大型语言模型进行毒化
通过细粒度的实验,我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化,这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。
Dec, 2023
训练指导调谐模型的众包数据集存在安全隐患,攻击者可通过少量恶意指令注入后门来控制模型行为,导致持久性后门并在多个数据集中实现 90%的攻击成功率,同时需要更加强大的防御措施来应对数据污染攻击,并重视指导众包中数据的质量。
May, 2023
本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准,大型 LMs 在此方面更易受攻击,而基于数据过滤或减少模型容量的防御措施提供的保护有限,同时会降低测试准确性。
May, 2023
我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响,特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明,我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效,攻击成功率高,在多种场景中超过 95%。令人担忧的是,我们的发现还表明,较大的模型对可转移的跨语言背门攻击更易受攻击,这也适用于主要在英语数据上进行预训练的 LLM,如 Llama2、Llama3 和 Gemma。此外,我们的实验表明,即使经过改述,触发器仍然有效,背门机制在 25 种语言的跨语言响应环境中证明高度有效,攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险,凸显有针对性的安全措施的迫切需求。
Apr, 2024
使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集,攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁,需要更多关注和深入研究。
Jun, 2024
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024
大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题,在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外,我们提出了一种基于强化学习 (RL) 的攻击方法,进一步诱发 LLMs 中的内隐性毒性。例如,RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明,LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示,对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。
Nov, 2023
我们研究了后门攻击,使用语言模型自动插入多样化的基于样式的触发器到文本中,并提出了一种毒素选择技术来改善攻击的效果,同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率,且几乎不需要训练而且非常有效。
Oct, 2023