机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响,该现象不同于过拟合和非线性,但可以通过生成对抗性训练样本来减小MNIST数据集中maxout网络的误差。
Dec, 2014
本文提出了一种统一框架来构建抵御对抗样本的强大机器学习模型,并通过梯度正则化方法有效地对代价函数的梯度进行惩罚,从而达到鲁棒性的目的。实验证明,该方法在两个基准数据集上达到了最佳精度。
Nov, 2015
本文研究如何检测机器学习中的对抗性样本,提出使用统计检验和模型增强的方法来识别对抗性样本,并参照多个数据集和对抗样本制作方法进行实验,结果表明统计学特性对于检测对抗性样本至关重要。
Feb, 2017
对10种检测对抗样本的最新提议进行比较后得出:它们都可以被利用新的损失函数打败,因此推测对抗样本的固有属性实际上是不存在的。作者提出了一些简单的评估准则来评估未来提出的防御措施。
May, 2017
该文章提出了一种直接部署到标准深度神经网络模型中的简单方法,通过引入两个经典图像处理技术,标量量化和平滑空间滤波,将图像中的扰动降低到最小,使用图像熵作为度量标准,可以有效地检测出对基于多种攻击技术的先进深度学习模型的20,000多个对抗样本,最终的实验结果表明,该检测方法可以取得96.39%的高整体F1评分。
本文对机器学习模型在视觉领域中面临的对抗性攻击和防御方法进行了广泛探讨,并讨论了不同攻击和防御方法的优点和缺点。旨在提供广泛的领域覆盖和机械进攻和防御机制的直观理解。
Nov, 2019
本研究提出了一种基于目标网络隐藏层数据表示的机制来检测对抗性样本,该机制训练了目标网络中间层的单独的自编码器,可以描述真实数据的流形,从而判断一个给定的例子是否具有与真实数据相同的特征,并探究对抗性样本在深度神经网络层中的行为。实验结果表明,我们的方法在监督和无监督环境中表现优于现有技术水平。
Jun, 2020
提出了一种基于对抗梯度方向的对抗示例检测方法,用于识别特制的输入,以欺骗机器学习分类器,此方法仅应用一个随机扰动对输入示例进行检测,实验表明,相比使用多个扰动的检测方法,该方法在对抗攻击方面表现更好。在多个数据集上的实验表明,该方法相应的AUC-ROC值为97.9%和98.6%,并且胜过了多种其他顶尖的检测方法。
Dec, 2020
本文探讨在可对抗的变形情况下检测对抗攻击,并提出一种名为 defense perturbation 的新方法来检测具有相同输入变换与可靠的对抗攻击。同时介绍了多网络对抗例子,这种对抗例子可以同时欺骗多个网络。
Jan, 2021
本文提出一种使用模型解释方法检测异常样例的无监督方法,并在 MNIST 数据集上展现了该方法高效检测最先进算法所产生的对手样本。
Jul, 2021