针对参数效率微调的权重污染后门攻击的防御

Feb, 2024

针对参数效率微调的权重污染后门攻击的防御

Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning

Shuai Zhao, Leilei Gan, Luu Anh Tuan, Jie Fu, Lingjuan Lyu...

TL;DR最近，针对语言模型的各种参数高效微调（PEFT）策略已经被提出并成功应用。然而，这引发了一个问题，即当面临权重污染后门攻击时，PEFT 这种只更新有限模型参数的方法是否构成安全漏洞。本研究表明，与全参数微调方法相比，PEFT 对权重污染后门攻击更加易受攻击，预定义的触发器依然可以被滥用，预定义的目标保持高置信度即使在微调后也是如此。受到这一观察的启发，我们开发了一种基于 PEFT 的有毒样本识别模块（PSIM），通过置信度识别有毒样本，提供了针对权重污染后门攻击的强大防御。具体而言，我们利用 PEFT 来训练 PSIM，并对样本标签进行随机重置。在推理过程中，极高的置信度表明样本受到了污染，而其他样本则干净。我们在文本分类任务、五种微调策略和三种权重污染后门攻击方法上进行了实验。实验结果显示，当使用 PEFT 时，权重污染后门攻击的成功率接近 100%。此外，我们的防御方法在缓解权重污染后门攻击方面表现出整体有竞争力的性能。

Abstract

Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerab

parameter-efficient fine-tuning weight-poisoning backdoor attacks poisoned sample identification module confidence text classification tasks

发现论文，激发创造

少即是多：对参数高效微调的木马攻击

参数高效微调 (PEFT) 机制使得能够有效地将预训练语言模型 (PLMs) 适应特定任务。然而，尽管其被广泛使用，PEFT 的安全风险还没有被充分探索。本文通过进行初步研究揭示 PEFT 对特洛伊攻击存在独特的脆弱性。通过双层优化来适应下游任务，我们提出了一种新颖的攻击方式 PETA。通过在各种下游任务和触发器设计上的广泛评估，我们展示了 PETA 在攻击成功率和未受影响的纯净准确性方面的有效性，即使在受害用户使用无污染数据对被植入后门的 PLM 进行 PEFT 后仍然有效。此外，我们基于此理论对 PETA 的效果提供了实证解释：双层优化在本质上 “正交化” 了后门和 PEFT 模块，从而在 PEFT 过程中保留了后门。基于这种理解，我们探索了一种简单的防御方法，即在被植入后门的 PLM 的选定层中省略 PEFT，并解冻这些层的参数子集，结果表明这种方法能够有效地中和 PETA。

Oct, 2023

Fine-mixing: 缓解精调语言模型中的后门问题

本文提出了利用预先训练的权重来缓解 Fine-tuning 语言模型中后门攻击的技术，即 Fine-mixing 和 Embedding Purification，通过三个单句情感分类任务和两个句对分类任务的实验表明，它们的性能优于现有的后门缓解方法，并为安全 Fine-tuned NLP 模型提供了一个基线防御。

Oct, 2022

通过逐层权值污染对预训练模型进行后门攻击

本文提出一种更强的权重污染攻击方法，引入逐层权重污染策略以种植更深层次的后门；我们还引入一种组合式触发器，不能轻易检测。实验表明，以前的防御方法无法抵抗我们的权重污染方法，这表明我们的方法可以被广泛应用，并为未来的模型鲁棒性研究提供线索。

Aug, 2021

医学图像分析的参数高效微调：错过的机会

本文首次全面评估 Parameter-Efficient Fine-Tuning (PEFT) 技术对不同医学图像分析任务的适用性，通过超过 600 个控制实验，研究并比较了 16 种不同的 PEFT 方法，解决了 PEFT 技术在基础模型中的应用问题，展示了在某些情况下的高达 22% 的表现提高，并证明了 PEFT 对于医学图像识别和文本到图像生成具有实际应用价值。

May, 2023

预训练模型的权重污染攻击

该研究重点讨论了使用大型预先训练模型的安全风险，提出了一种称为 RIPPLe 的正则化方法和一种称为嵌入手术的初始化方法，以防止称为权重污染的攻击，该攻击可以注入安全漏洞。进一步实验证明该攻击可能性很高，对多种应用都带来了严重威胁。

Apr, 2020

基于实证分析的 PEFT 技术在 LLM 中的优势和劣势

本文主要介绍了大型语言模型的 fine-tuning 方法 ——parameter-efficient fine-tuning（PEFT），并通过对 FLAN-T5 模型的综合测试和分析，提出了选择 fine-tuning 技术的最佳方法，重点考虑任务类型和数据可用性，同时指出了 PEFT 方法在数据过少的情况下的收敛速度慢的问题，提出了更好的 model optimization 方法。

Apr, 2023

大型模型的参数高效微调：综合调查

通过介绍 Parameter Efficient Fine-Tuning 算法以及系统实现相关内容，该论文对大模型在计算成本方面的问题进行了综述，提供了对性能和系统实施的深入洞察，为研究人员了解最新发展和实际应用提供了不可或缺的资源。

Mar, 2024

Light-PEFT: 轻量级参数高效微调通过早期修剪

Light-PEFT framework enables efficient fine-tuning by pruning redundant parameters in the foundation model and PEFT modules, resulting in improved training and inference speed, reduced memory usage, and comparable performance to standard PEFT.

Jun, 2024

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

参数高效微调：跨应用全面分析

评估了 Parameter Efficient Fine-Tuning 方法在深度学习中的有效性，以减轻计算负担、提高训练速度和降低内存使用，从而推动深度学习的更广泛应用和模型优化的创新。

Apr, 2024