通过模型变异测试实现语言模型后门样本检测
该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。
Jun, 2024
这篇论文提出了一种名为 MSDT 的新型文本后门防御方法,该方法在特定数据集上的性能优于现有的防御算法,实验证明在文本域中有效地防御后门攻击。
Nov, 2022
提出一种只需对干净模型进行最小修改(特别是输出层)以在精调的假象下注入后门的后门攻击范例。通过利用位于潜空间中不同模态之间的模式混合样本,并引入一种新的后门攻击方法来实现。在 MNIST,CIFAR-10,GTSRB 和 TinyImageNet 数据集上评估该方法的有效性。
Mar, 2024
这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击,系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言,作者提出了三种攻击机制和相应的后门优化方法,以攻击 LLM 决策管道中的不同组件:单词注入、场景操纵和知识注入。作者进行了广泛的实验,并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后,作者批评了自己提出方法的优点和缺点,突出了 LLM 在决策任务中固有的漏洞,并评估了保护 LLM 决策系统的潜在防御方法。
May, 2024
该文章就神经网络 (DNNs) 的后门攻击进行了系统研究,提出了一个新的 NLP 后门攻击框架,BadNL,其中包括了三种构造触发器的方法,即 BadChar、BadWord 和 BadSentence,攻击成功率几乎完美,并且几乎不影响原始模型的效用。
Jun, 2020
最近的研究表明,大型语言模型(LLMs)容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法,通过在不同轮次的用户输入中分发多个触发场景,并只在历史对话中出现了所有触发场景时激活后门,从而实现了高攻击成功率。
Apr, 2024
本文综述了深度学习在自然语言处理中的应用,分析了训练数据和模型面临的公开风险,着重探讨了后门攻击的前沿进展及其防御对策,并总结了基准数据集及其存在的问题,旨在设计更可靠的系统以保护模型安全。
Nov, 2022
分析内部 LSTM 神经元的变化,提出了一种防御方法,名为 Backdoor Keyword Identification,用于防御针对基于 LSTM 的文本分类的后门攻击,该方法可以在没有验证和可信数据集的情况下识别并排除用于向模型中插入后门的被破坏样本,实验结果表明无论触发句子如何,该方法在四个不同的文本分类数据集上都取得了良好的性能。
Jul, 2020
本研究在文本分类基于 LSTM 中,通过数据毒化实现后门攻击,注入触发句会导致误分类,被注入的后门攻击难以察觉,对性能影响小。通过在 IMDB 电影评论数据集上进行情感分析实验,证实本攻击的成功率可达 95%。
May, 2019
我们研究了后门攻击,使用语言模型自动插入多样化的基于样式的触发器到文本中,并提出了一种毒素选择技术来改善攻击的效果,同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率,且几乎不需要训练而且非常有效。
Oct, 2023