Jun, 2017

朝着对抗性样本的稳健检测

TL;DR本论文提出一种新颖的训练方法和阈值测试策略,以实现对恶意制造的对抗样本的鲁棒检测。在训练中,我们提出了最小化反交叉熵(RCE)的方法,以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中,我们提出了使用阈值策略作为检测器,以过滤出对抗样本,以实现可靠预测,我们的方法使用标准算法简单实现,与常见的交叉熵最小化相比,几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法,并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。