UOR：预训练语言模型的通用后门攻击

May, 2023

UOR：预训练语言模型的通用后门攻击

UOR: Universal Backdoor Attacks on Pre-trained Language Models

Wei Du, Peixuan Li, Boqun Li, Haodong Zhao, Gongshen Liu

TL;DR本论文提出了一种新的后门攻击方法 UOR，通过将手动选择转化为自动优化，定义了毒化监督对比学习，使用梯度搜索选择适当的触发词并针对不同 PLMs 和词汇表进行自适应，取得了比手动方法更好的攻击表现，并证明了该方法的普适性。

Abstract

Backdoors implanted in pre-trained language models (PLMs) can be transferred to various downstream tasks, which exposes a severe security threat. However, most existing backdoor attacks against PLMs are un-target

backdoor attacks pre-trained language models supervised contrastive learning gradient search text classification

发现论文，激发创造

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

多模式大型语言模型的测试期后门攻击

通过对多模态大型语言模型进行测试时背门攻击，使用对抗测试图像将背门注入文本模态中，无需获取或修改训练数据，并能在设置和激活有害效果的时间上解耦。

Feb, 2024

人类中心语言模型中的隐藏后门

本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击，该攻击能超过多项 NLP 任务，例如有害评论检测，机器翻译和问答系统，能在维持正常使用的正常用户的同时，在不经意间实施高成功率的攻击。

May, 2021

探究基于提示学习范式的普遍性漏洞

本文研究了 Prompt-based learning 模式的普适漏洞，发现加入特定的触发器可以完全控制和降低其性能，并提出了缓解攻击方法的潜在解决方案。

Apr, 2022

预训练模型的红色警报：普遍存在神经元级反向门攻击漏洞

该研究探讨了预训练模型（PTMs）在细分任务中普适的漏洞性，称为神经元级后门攻击（NeuBA），并通过 NLP 和 CV 实验表明其可以通过模型修剪等防御方法来抵御。

Jan, 2021

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

陷阱设置：通过诱饵捕获和击败预训练语言模型中的后门

本研究旨在设计一种抵御后门攻击的微调过程，使用预训练语言模型并引入蜜罐模块，以吸收后门信息，并通过对中间层表示的约束，在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性，与先前的最新方法相比，攻击成功率大幅降低了 10％至 40％。

Oct, 2023

通用后门攻击

训练大规模数据集很昂贵，因此一种模型仅训练一次并多次使用。我们展示了一种更高效的通用数据中毒攻击方法，通过少量的中毒样本，可以控制从任意源类到任意目标类的误分类。我们的触发器利用了一种称为跨类中毒可转移性的现象，从而使模型对其他类别的触发器更易受攻击。我们通过仅中毒训练数据集的 0.15％来控制高达 6,000 个类的模型的有效性和鲁棒性。

Nov, 2023

跨语言转移的困境：通过指令调整在 LLMs 中的后门攻击的跨语言可迁移性

我们的研究重点关注跨语言背门攻击对多语言 LLM 的影响，特别研究在一个或两个语言的指令调整数据中添加恶意行为如何影响未被攻击的语言的输出。我们的实证分析表明，我们的方法在 mT5、BLOOM 和 GPT-3.5-turbo 等模型中非常有效，攻击成功率高，在多种场景中超过 95%。令人担忧的是，我们的发现还表明，较大的模型对可转移的跨语言背门攻击更易受攻击，这也适用于主要在英语数据上进行预训练的 LLM，如 Llama2、Llama3 和 Gemma。此外，我们的实验表明，即使经过改述，触发器仍然有效，背门机制在 25 种语言的跨语言响应环境中证明高度有效，攻击成功率平均达到 50%。我们的研究旨在强调当前多语言 LLM 存在的漏洞和重大安全风险，凸显有针对性的安全措施的迫切需求。

Apr, 2024

针对预训练模型的多目标后门攻击

本文提出针对预训练代码模型的任务不可知后门攻击，包括受害模型隐藏蓄意损坏的策略和触发器，可以在多种代码生成和理解任务中成功实现目标攻击。

Jun, 2023