CVPRSep, 2019

使用影响力函数和最近邻居检测对抗样本

TL;DR本文提出了一种针对深度神经网络的对抗攻击的检测方法,使用影响函数来测量每个训练样本对于验证集数据的影响力,并通过在激活层上拟合 k-NN 模型来寻找最有支持性的训练样本,最后使用 k-NN 排名和距离训练一个对抗检测器成功地区分了六种攻击方法和三个数据集的对抗样本,取得了最先进的结果。