基于噪声敏感度分析的深度神经网络测试优先级技术
该文章提出了一种直接部署到标准深度神经网络模型中的简单方法,通过引入两个经典图像处理技术,标量量化和平滑空间滤波,将图像中的扰动降低到最小,使用图像熵作为度量标准,可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本,最终的实验结果表明,该检测方法可以取得 96.39%的高整体 F1 评分。
May, 2017
本文提出了一种新的扰动流形及其关联的影响度量方法,通过该方法可以量化各种扰动对 DNN 分类器的影响,主要应用于四个模型构建任务:检测异常值、分析模型体系结构的敏感性、比较训练和测试集之间的网络敏感性以及定位易受攻击的区域。实验证明,该方法在 CIFAR10 和 MNIST 数据集上的 ResNet50 和 DenseNet121 模型中具有较好的性能。
Jan, 2019
本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法,可以实现对于对抗样本的检测,具有很好的泛化性能,并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。
Mar, 2017
该研究提出了一种使用统计学假设检验和模型变化测试的敏感性测量方法,以在运行时检测基于 MNIST 和 CIFAR10 数据集的最新攻击方法生成的对抗样本的方法。结果表明,该方法可以高效准确地检测出对抗样本。
Dec, 2018
本文以 Fast Gradient Sign Method 为基础,对面部图像数据集进行扰动,测试不同黑盒攻击算法的鲁棒性,并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明,所有像素攻击方法能使分类器置信度平均下降至 84%,且 81.6%的误分类率,但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。
Jan, 2020
本文提出了一种快速特征生成技术,可以对深度神经网络进行快速的安全检测,尤其是可以在几秒钟内检测出所谓的后门 (backdoors),并且无需大量计算资源和训练数据。
Jul, 2020
本文旨在通过情感测量的方式来识别深度神经网络模型的弱点。通过三种情感测量指标:置信度、不确定性和惊奇度的比较,发现这些指标能够有效地通过对模型计算的分析来辨识出暴露 DNN 行为不当的输入。
Jan, 2019
本文提出一种视觉分析方法,通过比较和分析对抗和正常示例的数据路径,解释为什么对抗性示例被错误分类。使用神经网络构建和训练解决其子集选择问题,采用多层可视化来帮助研究数据路径的。
Jan, 2020