Feb, 2024

通过降低频率空间从被后门污染数据集中获得清洁语言模型

TL;DR本研究通过傅立叶分析探讨了被污染数据集上的后门语言模型在频率空间中的学习机制,发现后门映射对较低频率的倾向更加明显,导致后门映射收敛更快。为了缓解这一问题,我们提出了多尺度低秩自适应 (MuScleLoRA) 方法,通过在频率空间中进行多个径向缩放,并在更新参数时进一步对齐梯度,使模型更注重相对高频的清洁映射的学习,从而缓解后门学习。实验结果表明,MuScleLoRA 明显优于基线方法,将多样化后门攻击的平均成功率降低到 15% 以下,并且在包括 BERT、RoBERTa 和 Llama2 在内的多个骨干语言模型上具有泛化能力。