Sep, 2019

当可解释性遇上对抗学习:使用 SHAP 签名检测对抗样本

TL;DR本文介绍了一种新的检测方法,该方法使用计算深度神经网络分类器的内部层的 Shapley 加性解释(SHAP)值来区分正常和对抗输入。通过针对流行的 CIFAR-10 和 MNIST 数据集构建数据集,训练基于神经网络的检测器去区分正常和对抗性输入,并评估了该方法在对抗攻击生成的对抗性数据上的检测能力。结果表明,该检测器具有高的检测准确性和对使用不同攻击方法生成的对抗性输入的强大泛化能力。