Jun, 2021

对抗样本是制造强毒药的因素

TL;DR本文研究对数据进行污染的方法,发现对预先训练的模型攻击的对抗性示例比传统攻击方法更有效。在分配正确标签时,对抗性示例包含有用的语义信息,可以用于训练;否则,不能用于训练。该方法与现有方法相比显著提高了安全数据发布的效果,我们发布了毒化版本的ImageNet(ImageNet-P)以鼓励对这种数据混淆形式的研究。