Dec, 2020
利用对抗梯度方向进行对抗样本检测,战胜攻击者
Beating Attackers At Their Own Games: Adversarial Example Detection
Using Adversarial Gradient Directions
TL;DR提出了一种基于对抗梯度方向的对抗示例检测方法,用于识别特制的输入,以欺骗机器学习分类器,此方法仅应用一个随机扰动对输入示例进行检测,实验表明,相比使用多个扰动的检测方法,该方法在对抗攻击方面表现更好。在多个数据集上的实验表明,该方法相应的AUC-ROC值为97.9%和98.6%,并且胜过了多种其他顶尖的检测方法。