Feb, 2024

针对参数效率微调的权重污染后门攻击的防御

TL;DR最近,针对语言模型的各种参数高效微调(PEFT)策略已经被提出并成功应用。然而,这引发了一个问题,即当面临权重污染后门攻击时,PEFT 这种只更新有限模型参数的方法是否构成安全漏洞。本研究表明,与全参数微调方法相比,PEFT 对权重污染后门攻击更加易受攻击,预定义的触发器依然可以被滥用,预定义的目标保持高置信度即使在微调后也是如此。受到这一观察的启发,我们开发了一种基于 PEFT 的有毒样本识别模块(PSIM),通过置信度识别有毒样本,提供了针对权重污染后门攻击的强大防御。具体而言,我们利用 PEFT 来训练 PSIM,并对样本标签进行随机重置。在推理过程中,极高的置信度表明样本受到了污染,而其他样本则干净。我们在文本分类任务、五种微调策略和三种权重污染后门攻击方法上进行了实验。实验结果显示,当使用 PEFT 时,权重污染后门攻击的成功率接近 100%。此外,我们的防御方法在缓解权重污染后门攻击方面表现出整体有竞争力的性能。