NIPSOct, 2018

攻击遇上可解释性:基于特征的对抗样本检测

TL;DR该论文提出基于解释性的对抗样本检测技术,通过对神经元的双向对应推断来对抗样本进行检测,实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率, 误判率为 9.91%。