使用影响力函数和最近邻居检测对抗样本

CVPRSep, 2019

使用影响力函数和最近邻居检测对抗样本

Detecting Adversarial Samples Using Influence Functions and Nearest Neighbors

Gilad Cohen, Guillermo Sapiro, Raja Giryes

TL;DR本文提出了一种针对深度神经网络的对抗攻击的检测方法，使用影响函数来测量每个训练样本对于验证集数据的影响力，并通过在激活层上拟合 k-NN 模型来寻找最有支持性的训练样本，最后使用 k-NN 排名和距离训练一个对抗检测器成功地区分了六种攻击方法和三个数据集的对抗样本，取得了最先进的结果。

Abstract

deep neural networks (DNNs) are notorious for their vulnerability to adversarial attacks, which are small perturbations added to their input images to mislead their prediction. Detection of adversarial examples i

deep neural networks adversarial attacks influence functions k-nearest neighbor model adversarial detector

发现论文，激发创造

关于对抗样本的学习表示和影响函数的启示

通过邻近邻居和影响函数以及马氏距离两种方法，将图像处理中的对抗样本检测方法应用到 NLP 中，发现前者在多个强基线上与最新技术相比具有领先性能，同时，新颖的影响函数的使用揭示了 NLP 中对抗性样本的子空间性质与图像处理中的子空间性质的联系，以及它们在不同类型的 NLP 任务中的差异。

Sep, 2023

深度 k 近邻：朝着自信、可解释和鲁棒的深度学习发展

本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题，通过将 k-NN 算法与深度学习结合，提出了一种名为 DkNN 的混合分类器，它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明，DkNN 算法可以准确识别模型外部的输入，同时提供直观和有用的模型失败解释。

Mar, 2018

检测来自伪像的对抗性样本

本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法，可以实现对于对抗样本的检测，具有很好的泛化性能，并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。

Mar, 2017

使用 K 最近邻防御对抗性例子

提出了一个基于神经网络中间层激活的 k - 最近邻（kNN）的防御机制来对抗对手样本，该方案在 MNIST 和 CIFAR-10 上的 l2 扰动上超过了最先进的防御措施，我们的模型在 MNIST 上是 3.07，CIFAR-10 为 2.3。此外，我们提出了一种简单的可辨认下界，该下界是在 Lipschitz 网络学习的表示的基础上，用 1-NN 实现的，我们的模型提供与其他具有类似准确度的 MNIST 的方案相当的平均下界。

Jun, 2019

深度 K 最近邻模型的鲁棒性

本文探讨了一种结合了 k 最近邻算法和深度学习的模型 - Deep k-Nearest Neighbor（DkNN）来提高模型的抵抗 Adversarial Example 威胁，同时提出了一种基于梯度下降的攻击方法，能够有效地攻击 DkNN 模型。

Mar, 2019

关于对抗训练和最近邻分类器的研究

在这篇论文中，我们分析了 1 Nearest Neighbor（1NN）分类器的对抗鲁棒性，并将其性能与对抗性训练进行了比较。通过实验证明，在来自 CIFAR10 的 45 个不同二进制图像分类问题上，1NN 在平均对抗准确性方面优于 TRADES（一种强大的对抗性训练算法）。此外，对于与训练期间稍有不同的扰动，我们的实验结果表明，1NN 在 69 个经预训练的 CIFAR10 的鲁棒模型中超过了几乎所有模型。综上所述，我们的结果表明，现代对抗性训练方法仍然无法达到简单的 1NN 分类器的鲁棒性。

Apr, 2024

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

使用自适应噪声降低在深度网络中检测对抗样本

该文章提出了一种直接部署到标准深度神经网络模型中的简单方法，通过引入两个经典图像处理技术，标量量化和平滑空间滤波，将图像中的扰动降低到最小，使用图像熵作为度量标准，可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本，最终的实验结果表明，该检测方法可以取得 96.39％的高整体 F1 评分。

May, 2017

利用 Web 规模最近邻搜索抵御对抗图像

对抗扰动将图像离开图像流形。通过对上亿张网络图像数据库的最近邻搜索来近似将图像移回到流形，实现了对抗图像的有效防御，但防御与准确性之间存在权衡，并且需要一个大型图像数据库以及对图像数据库的仔细构建才能在抵御攻击方面足够强大。

Mar, 2019

基于情感分析的新对抗图像检测

本研究提出了一种新的对抗性样本检测器，使用情感分析和神经网络中的隐藏层特征映射来对检测模型进行优化。实验结果表明，该检测器在检测对 ResNet 和 Inception 中性网络在 CIFAR-10、CIFAR-100 和 SVHN 数据集上最新攻击时，优于目前的检测算法，仅具有约 200 万参数，耗时少于 4.6 毫秒。

May, 2023