该研究提出了一种使用统计学假设检验和模型变化测试的敏感性测量方法,以在运行时检测基于 MNIST 和 CIFAR10 数据集的最新攻击方法生成的对抗样本的方法。结果表明,该方法可以高效准确地检测出对抗样本。
Dec, 2018
本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法,可以实现对于对抗样本的检测,具有很好的泛化性能,并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。
Mar, 2017
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
本文介绍了一种基于对深度神经网络输入输出映射的精确理解的算法,用于制造可以轻易被误分类的针对深度神经网络的对抗样本,通过计算不同类型的样本之间的硬度度量对不同的类型的样本抗击抗性进行了评估,并提出了防御针对性攻击的初步方法。
Nov, 2015
通过元学习方法构建的双网络框架,旨在解决深度神经网络在遇到少量样本的新对抗攻击时检测精确度低的问题。在 CIFAR-10,MNIST 和 Fashion-MNIST 三个数据集上实验表明,该方法相比于传统的对抗攻击检测方法具有更高的有效性。
Aug, 2019
该研究针对深度神经网络在恶意软件分类中存在的漏洞,通过对对抗样本进行有效构建的攻击,探讨如何构建在样本生成方面更具挑战性的更安全的模型。该研究表明,在对抗样本的制作方面,恶意软件分类与计算机视觉领域之间存在巨大的差异。本文还评估了潜在的防御机制对恶意软件分类的影响,并发现对抗样本的蒸馏和重新训练可以带来很有前途的结果。
Jun, 2016
该文章提出了一种直接部署到标准深度神经网络模型中的简单方法,通过引入两个经典图像处理技术,标量量化和平滑空间滤波,将图像中的扰动降低到最小,使用图像熵作为度量标准,可以有效地检测出对基于多种攻击技术的先进深度学习模型的 20,000 多个对抗样本,最终的实验结果表明,该检测方法可以取得 96.39%的高整体 F1 评分。
May, 2017
提出了一种新的对抗样本解决方案,该方案通过随机破坏样本中的特征,阻止攻击者构建有影响力的对抗样本,从而显著提高深度神经网络对抗样本的鲁棒性,同时保持高分类准确性。
Oct, 2016
研究表明,即使没有内部知识,对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的,这暴露了深度神经网络的弱点,为设计安全的网络提供了检验。
Dec, 2016
本文提出了 AdvGAN,一种使用生成对抗网络产生高感知质量的对抗样本的方法,可以更高效地生成对抗性的扰动用于敌对训练,同时在半白盒和黑盒攻击设置下,AdvGAN 都能在 MNIST 黑盒攻击竞赛中取得 92.76%的攻击成功率。
Jan, 2018