May, 2024

BAN:检测对抗性神经元噪声激活的后门

TL;DR改进了针对后门特征的逆向,将额外的神经元激活信息融入后门检测中,通过对带有后门效果的模型的损失权重进行对抗性增加来激活后门效果,从而轻松区分带有后门的模型和干净的模型。与现有的 BTI-DBF 防御相比,实验结果表明我们的 BAN 防御在 CIFAR-10 上效率提高了 1.37 倍,在 ImageNet200 上提高了 5.11 倍,并且具有 9.99% 更高的检测成功率。我们的代码和训练模型已经公开,可供使用。