May, 2024

仅使用少量干净样本的统一神经背门去除方法:遗忘与重新学习

TL;DRULRL 是一种全面有效的去除后门的新方法,它通过首先使用 unlearning 来识别可疑神经元,然后通过有针对性的神经权重调整来减轻后门攻击,ULRL 在消除后门同时保留模型的实用性方面显著优于现有方法。