深度 K 最近邻模型的鲁棒性
本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题,通过将 k-NN 算法与深度学习结合,提出了一种名为 DkNN 的混合分类器,它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明,DkNN 算法可以准确识别模型外部的输入,同时提供直观和有用的模型失败解释。
Mar, 2018
提出了一个基于神经网络中间层激活的 k - 最近邻(kNN)的防御机制来对抗对手样本,该方案在 MNIST 和 CIFAR-10 上的 l2 扰动上超过了最先进的防御措施,我们的模型在 MNIST 上是 3.07,CIFAR-10 为 2.3。此外,我们提出了一种简单的可辨认下界,该下界是在 Lipschitz 网络学习的表示的基础上,用 1-NN 实现的,我们的模型提供与其他具有类似准确度的 MNIST 的方案相当的平均下界。
Jun, 2019
本文针对分类器的测试攻击问题,引入了一种理论框架,类似于偏差 - 方差理论,并使用该框架对一种典型的非参数分类器 - k 最近邻分类器的鲁棒性进行了分析,并提出了一种新的修改的 1 最近邻分类器,其在大样本极限下具有良好的鲁棒性。
Jun, 2017
对抗扰动将图像离开图像流形。通过对上亿张网络图像数据库的最近邻搜索来近似将图像移回到流形,实现了对抗图像的有效防御,但防御与准确性之间存在权衡,并且需要一个大型图像数据库以及对图像数据库的仔细构建才能在抵御攻击方面足够强大。
Mar, 2019
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
本篇论文的研究内容为:计算最小对抗性扰动的问题。研究者们提出了第一个能够计算最小对抗性扰动的算法,将问题用凸二次规划问题的列表进行了表示,用于 1-NN 模型的算法能够有效地解决这个问题。对于更大的 $K$-NN 模型,我们表明同样的表示形式可以帮助我们有效地计算最小对抗性扰动的上限和下限,这可用于攻击和验证。
Jun, 2019
本文提出 Dirichlet Neighborhood Ensemble (DNE) 方法,用于训练 Robust 模型以防御替换攻击,通过抽样 embedding 向量形成虚拟句子,并在训练集上增加确保模型在干净的原始数据上保持良好性能,实验证明该方法在不同网络架构和多个数据集上均明显优于其他最近提出的防御方法。
Jun, 2020
利用 kNN 和 rNN 内在的多数投票机制可以提供针对数据污染攻击和后门攻击的保护,并且我们的评估结果表明 kNN 和 rNN 的内在保护机制胜过目前最先进的合格防御。
Dec, 2020
本文提出了一种针对深度神经网络的对抗攻击的检测方法,使用影响函数来测量每个训练样本对于验证集数据的影响力,并通过在激活层上拟合 k-NN 模型来寻找最有支持性的训练样本,最后使用 k-NN 排名和距离训练一个对抗检测器成功地区分了六种攻击方法和三个数据集的对抗样本,取得了最先进的结果。
Sep, 2019