通过内省检测神经网络中的对抗样本和其他分类错误
论文研究了神经网络模型的不确定性对于对抗样本的产生具有决定性作用,与体系结构、数据集和训练协议无关,表现为对抗误差具有与对抗扰动大小呈幂律的普适性,通过减小预测熵来提高对抗鲁棒性,在 CIFAR10 上使用神经架构搜索找到更鲁棒的架构。
Nov, 2017
机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响,该现象不同于过拟合和非线性,但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。
Dec, 2014
针对当前神经网络抵御对抗攻击的能力较弱的情况,提出了一种新的损失函数,从而提高了 19 种不同状态下的神经网络的抗攻击能力。同时发现目前不良攻击行为只能诱发少量不同类别的误分类,过于自信或不自信都会影响对模型鲁棒性的准确评估。
May, 2021
本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击,并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中,本文设计的神经网络的准确性和鲁棒性面积(ARA)为 0.0053,是之前最先进技术的 2.4 倍,拓展了理解神经网络决策的重要方向。
Jun, 2019
本研究从人类参与和解释性的角度出发,探究了 ConvNets 和 Imagenet 在图像分类上的性能、鲁棒性和偏差问题,并以实验和工具提出了解释作为改善模型可靠性和理解性的有效手段。
Nov, 2017
通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验,本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的,并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比,在对大扰动攻击的抵抗中,本文的防御方法实现了稳健分类和稳健解释,表现优于最先进的对抗训练方法。
Jun, 2020
本文提出了基于统计学检测方法的分类器适应方法,提高了检测性能;并且提出了 Logit Mimicry Attack 方法生成对抗样本,通过该方法可以避开统计学检测和分类器方法;最后,通过该文献,可以证明对抗样本的检测,统计学检测和分类器检测都不具备鲁棒性。
Jul, 2019
本文介绍了一种利用深度学习神经网络中 Bayesian 不确定性估计和密度估计的方法,可以实现对于对抗样本的检测,具有很好的泛化性能,并在标准分类任务上取得了 85-93% 的 ROC-AUC 表现。
Mar, 2017
本文探讨在可对抗的变形情况下检测对抗攻击,并提出一种名为 defense perturbation 的新方法来检测具有相同输入变换与可靠的对抗攻击。同时介绍了多网络对抗例子,这种对抗例子可以同时欺骗多个网络。
Jan, 2021