消除带后门模型的魔合技巧

Feb, 2024

Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge

Ansh Arora, Xuanli He, Maximilian Mozes, Srinibas Swain, Mark Dras...

TL;DR合并带后门模型与其他同类模型可以修复后门漏洞，即使这些模型并非完全安全，该方法可有效地、高效地防御后门攻击，并能持续优于其他先进的基准线方法，使攻击成功率降低 75%。

Abstract

The democratization of pre-trained language models through open-source initiatives has rapidly advanced innovation and expanded access to cutting-edge technologies. However, this openness also brings significant security risks, including →

pre-trained language models backdoor attacks nlp system integrity model merging defense against backdoor attacks

发现论文，激发创造

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

生成式大语言模型的后门移除

通过提出模拟和消除（SANDE）方法，本文针对生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）方法和 SANDE 两阶段框架，以有效去除已知和未知触发器所引起的不良数据映射，实现 LLMs 的安全增强，保持其强大能力，而无需额外访问未受后门攻击的模型。

May, 2024

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

IMBERT: 使 BERT 免受插入式后门攻击

本文介绍了一种基于自我防御策略的解决方案 IMBERT，用于在推断时有效地识别和减少后门攻击的成功率，特别针对自然语言处理应用中的后门攻击漏洞问题，并在多个预先训练的变压器模型上验证，取得了竞争性的准确性。

May, 2023

利用后门维护我们的隐私

通过插入后门，我们提出了一种简单而有效的防御方法，以消除模型中的私人信息，特别是在文本编码器中，从而增强不经过过滤的网络爬取数据上的个人隐私。

Oct, 2023

BadPre：面向预训练 NLP 基础模型的任务无关后门攻击

本研究提出了首个不依赖下游任务信息的 NLP 预训练模型后门攻击技术 Name，并设计了一种有效的绕过最新防御方案的策略，实验结果表明，该方法可以在有效和隐蔽的权衡下，攻击各种 NLP 任务。

Oct, 2021

大型语言模型更具优势：探索生成式干净标签背门攻击对文本分类器的影响

我们研究了后门攻击，使用语言模型自动插入多样化的基于样式的触发器到文本中，并提出了一种毒素选择技术来改善攻击的效果，同时还描述了一种名为 REACT 的基线防御机制来缓解后门攻击。我们的评估结果表明 LLMBkd 攻击在各种样式上都能以高攻击成功率，且几乎不需要训练而且非常有效。

Oct, 2023