Feb, 2020

针对连续学习者的敌对后门攻击:有针对性地遗忘和制造虚假记忆

TL;DR本文探究 EWC 算法对抗恶意攻击的漏洞,发现通过在训练中引入微小的错误信息,恶意攻击者能够逐步地、故意地让模型遗忘数据,从而掌控模型。我们展示了针对 MNIST 数据集不同变种的后门攻击,并证明只需要在不到 1% 的训练数据中注入恶意样本,即可轻松破坏神经网络的记忆。