Feb, 2020
针对连续学习者的敌对后门攻击:有针对性地遗忘和制造虚假记忆
Targeted Forgetting and False Memory Formation in Continual Learners through Adversarial Backdoor Attacks
Muhammad Umer, Glenn Dawson, Robi Polikar
TL;DR本文探究 EWC 算法对抗恶意攻击的漏洞,发现通过在训练中引入微小的错误信息,恶意攻击者能够逐步地、故意地让模型遗忘数据,从而掌控模型。我们展示了针对 MNIST 数据集不同变种的后门攻击,并证明只需要在不到 1% 的训练数据中注入恶意样本,即可轻松破坏神经网络的记忆。