Jul, 2024

利用激活引导模型编辑缓解后门攻击

TL;DR通过机器反学习的新方法,我们提出了一种新颖的后门缓解方法,通过域相等的未见数据的模型激活来引导模型权重的编辑,以反制这种后门攻击。我们的方法不仅计算成本低廉,而且在只需要少量未见样本进行反学习的情况下,能够取得最先进的性能。此外,我们还指出,反学习后门可能会导致整个目标类别被反学习,从而引入附加修复步骤,在编辑模型后保持模型的实用性。实验证明,我们提出的方法在不同数据集和触发模式上能够有效地反学习后门。