ICMLJun, 2020

适当的网络可解释性有助于分类的对抗鲁棒性

TL;DR通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验,本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的,并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比,在对大扰动攻击的抵抗中,本文的防御方法实现了稳健分类和稳健解释,表现优于最先进的对抗训练方法。