Aug, 2020
对抗权重扰动能否注入神经后门?
Can Adversarial Weight Perturbations Inject Neural Backdoors?
Siddhant Garg, Adarsh Kumar, Vibhor Goel, Yingyu Liang
TL;DR本文通过在模型权重空间中引入对抗扰动来注入 DNNs 的后门,揭示了使用公开可用的训练模型的安全风险。作者设计了一个复合损失,以通过投影梯度下降在原始模型的预测和所需触发器之间引入对抗性的权重扰动,并表明这些扰动在多项任务中都是有效的。