TrojFM: 面向超大规模基础模型的高效后门攻击

May, 2024

TrojFM: 面向超大规模基础模型的高效后门攻击

TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models

Yuzhou. Nie, Yanting. Wang, Jinyuan. Jia, Michael J. De Lucia, Nathaniel D. Bastian...

TL;DR我们提出了一种适用于非常大的基础模型的全新后门攻击方法 TrojFM，通过开发一种新的后门注入方法，使被后门化的模型在对输入进行隐藏表示时生成相似的表示，从而实现对非常大的基础模型的高效后门攻击。我们的攻击方法可以通过仅使用一个 A100 GPU 来启动，而且对最先进的防御方法具有强大的韧性，对关键超参数的变化也不敏感，同时大幅节省计算和内存资源消耗。

Abstract

One key challenge in backdoor attacks against large foundation models is the resource limits. backdoor attacks usually require retraining

backdoor attacks large foundation models trojfm hidden representations computational resources

发现论文，激发创造

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

TransTroj: 通过嵌入不可区分性实现对预训练模型的可迁移后门攻击

在这篇论文中，我们提出了一种新颖的可转移后门攻击，TransTroj，以同时实现功能保持、持久性和任务不可知性，将预训练模型（PTMs）中的后门注入到下游模型中，并通过优化触发器和受害 PTMs 来实现嵌入空间中的嵌入不可辨别性。实验结果表明，TransTroj 在各种系统设置下显著优于其他同类攻击，并在四个 PTMs 和六个下游任务上表现出优异的性能。

Jan, 2024

频域后门攻击

该论文提出一种新的深度学习后门攻击方法 FTROJAN，通过在频域上 Trojan 攻击可以使污染图像几乎无法被检测，且攻击能够成功且不会降低模型的预测准确率。

Nov, 2021

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

大型语言模型的复合后门攻击

在这篇论文中，我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同，我们的组合后门攻击（CBA）将多个触发关键词分散在不同的提示组件中，这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。

Oct, 2023

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和 SANDE 两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现 LLMs 的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

基于词汇的零训练后门攻击语言模型

本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack，通过操作 language model 的嵌入字典，向 tokenizer 注入词汇触发器，实现攻击的隐秘性，实验结果表明该攻击方法的普遍性和有效性。

Feb, 2023

基于联邦学习的隐形多目标后门攻击的双模型替换

本研究设计了一种基于联邦学习的背门攻击方法，利用神经网络和 TrojanGan 隐写模型实现了背门触发器的隐蔽和多样化，同时通过多重触发器提高了背门攻击的鲁棒性，实验结果表明该方法在联邦学习中具有高背门隐蔽性、触发器形式多样性以及对多目标攻击具有较好的攻击成功率。

Apr, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024