Fine-mixing: 缓解精调语言模型中的后门问题

EMNLPOct, 2022

Fine-mixing: 缓解精调语言模型中的后门问题

Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models

Zhiyuan Zhang, Lingjuan Lyu, Xingjun Ma, Chenguang Wang, Xu Sun

TL;DR本文提出了利用预先训练的权重来缓解 Fine-tuning 语言模型中后门攻击的技术，即 Fine-mixing 和 Embedding Purification，通过三个单句情感分类任务和两个句对分类任务的实验表明，它们的性能优于现有的后门缓解方法，并为安全 Fine-tuned NLP 模型提供了一个基线防御。

Abstract

deep neural networks (DNNs) are known to be vulnerable to backdoor attacks. In natural language processing (NLP), DNNs are often backdoore

deep neural networks backdoor attacks natural language processing pre-trained language model fine-mixing

发现论文，激发创造

精细修剪：防御深度神经网络背门攻击

本文提出了针对深度神经网络中的后门攻击的有效防御措施，证明了单独使用修剪或微调是不足以防御复杂攻击的，但结合使用微调 - 修剪可以成功削弱或消除后门攻击，仅略微降低网络对于普通 (非触发输入) 的准确率。该研究为深度神经网络中的后门攻击提供了防御措施的第一步。

May, 2018

基于遗忘权重变化和后门激活的揭示与缓解后门漏洞

我们的工作主要研究了深度神经网络中的后门攻击安全威胁，并提出了一种基于神经元权重变化和活跃度感知微调的两阶段防御方法，通过实验证明了该方法相比最新的后门防御方法具有更高的性能。

May, 2024

陷阱设置：通过诱饵捕获和击败预训练语言模型中的后门

本研究旨在设计一种抵御后门攻击的微调过程，使用预训练语言模型并引入蜜罐模块，以吸收后门信息，并通过对中间层表示的约束，在微调过程中防止后门创建。在基准数据集上进行的综合实验证明了我们的防御策略的有效性和鲁棒性，与先前的最新方法相比，攻击成功率大幅降低了 10％至 40％。

Oct, 2023

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

自然梯度微调有效去除后门

本文提出了一种名为 NGF 的新颖的去后门深度神经网络的技巧，通过 fine-tuning 一个特定的层，在使用 Fisher 信息矩阵的清洁数据分布感知正则化器的帮助下，成功地消除了各种后门攻击，提高了通用性能。

Jun, 2023

预训练模型的后门可以转移到所有模型

本文提出了一种新的方法，将包含触发器的输入直接映射到预训练 NLP 模型的预定义输出表示，而不是目标标签，从而可以将后门引入广泛的下游任务中，而无需任何先前的知识，通过各种触发器类型的实验，论证了该方法对于不同的分类和命名实体识别等微调任务以及不同的模型（如 BERT、XLNet、BART）是普适的，并且不可避免地引入了严重威胁。

Oct, 2021

隐私后门：通过污染预训练模型增强成员推断

利用小型专用数据集微调大型预训练模型来生成特定应用模型是常见的做法。然而，我们揭示了一种新的漏洞：隐私后门攻击，通过该攻击，在微调受后门影响的模型时，训练数据的隐私泄露率会显著增加。我们在不同数据集和模型上进行了大量实验证明了这种攻击的广泛适用性和有效性，并通过不同微调方法和推断策略进行了多次消融研究以全面分析这个新威胁。我们的发现突出了机器学习社区的重要隐私问题，并呼吁重新评估使用开源预训练模型的安全协议。

Apr, 2024

在数据有限的配置中减轻深度神经网络中的后门问题

通过对被污染神经元的特征进行排名，我们提出的方法可以显著降低攻击成功的几率超过 50%，即使只有极小的干净数据集，例如 CIFAR-10 数据集的十个样本，并且不会明显损害模型性能。此外，我们提出的方法比基准方法运行速度快三倍。

Nov, 2023

隐私后门：通过已被污染的预训练模型窃取数据

预训练机器学习模型存在隐私后门的风险，攻击者能够通过篡改权重完全破坏微调数据的隐私。我们展示了如何为各种模型（包括 transformers）构建隐私后门，进而成功重构个体微调样本。此外，我们还展示了被注入后门的模型能够对使用差分隐私训练的模型进行隐私攻击。因此，如果模型不受信任，使用宽松隐私保证进行差分隐私模型训练的常见乐观实践是不安全的。总的来说，我们的工作突出了对机器学习隐私的一种关键而被忽视的供应链攻击。

Mar, 2024

针对参数效率微调的权重污染后门攻击的防御

最近，针对语言模型的各种参数高效微调（PEFT）策略已经被提出并成功应用。然而，这引发了一个问题，即当面临权重污染后门攻击时，PEFT 这种只更新有限模型参数的方法是否构成安全漏洞。本研究表明，与全参数微调方法相比，PEFT 对权重污染后门攻击更加易受攻击，预定义的触发器依然可以被滥用，预定义的目标保持高置信度即使在微调后也是如此。受到这一观察的启发，我们开发了一种基于 PEFT 的有毒样本识别模块（PSIM），通过置信度识别有毒样本，提供了针对权重污染后门攻击的强大防御。具体而言，我们利用 PEFT 来训练 PSIM，并对样本标签进行随机重置。在推理过程中，极高的置信度表明样本受到了污染，而其他样本则干净。我们在文本分类任务、五种微调策略和三种权重污染后门攻击方法上进行了实验。实验结果显示，当使用 PEFT 时，权重污染后门攻击的成功率接近 100%。此外，我们的防御方法在缓解权重污染后门攻击方面表现出整体有竞争力的性能。

Feb, 2024