NIPSOct, 2018
攻击遇上可解释性:基于特征的对抗样本检测
Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples
Guanhong Tao, Shiqing Ma, Yingqi Liu, Xiangyu Zhang
TL;DR该论文提出基于解释性的对抗样本检测技术,通过对神经元的双向对应推断来对抗样本进行检测,实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率, 误判率为 9.91%。