Dec, 2017

训练集成来检测对抗样本

TL;DR提出了一种新的集成方法,用于检测和分类最新攻击算法生成的对抗样本,包括 DeepFool 和 C&W,该方法通过训练集成成员对随机良性样本的分类误差较低同时在训练分布之外的样本上最小化一致性来工作。结果表明该方法能够抵抗白盒和黑盒攻击,并且在 MNIST 数据集上表现良好。