通过研究和比较多种神经网络,本文发现随着图片识别准确度的提高,对抗性攻击虽然越来越容易使模型改变分类决策,但同时攻击的特征也越来越远离与人类视觉识别相关的特征,即使人工以同样方式造成的影响。而通过神经协调器网络的训练,可以使神经网络更加接近人类视觉识别应有模式,从而提高对抗性攻击下的鲁棒性。
Jun, 2023
机器学习模型因神经网络的线性特性容易受到对抗性扰动的影响,该现象不同于过拟合和非线性,但可以通过生成对抗性训练样本来减小 MNIST 数据集中 maxout 网络的误差。
Dec, 2014
本文研究对抗样本攻击机器学习模型并提出一种新的攻击方法,证明最先进的对抗训练方法无法同时获得对 $\ell_2$ 和 $\ell_\infty$ 范数的健壮性,提出可能的解决方案及其局限性。
May, 2019
在这篇论文中,我们发现通过在输入数据分布上进行语义保持的变换可以导致 Robust accuracy 的大幅度变化,而 clean accuracy 却没有变化,这表明输入数据分布可以影响神经网络的 Adversarial robustness。
Feb, 2019
深度神经网络对任务无关的改变过于敏感,对任务相关的改变过于不敏感,导致广泛的输入空间易受到对抗攻击,传统的交叉熵损失函数存在局限性,本文提出了基于信息论分析的目标函数以克服这些问题。
Nov, 2018
论文研究了神经网络模型的不确定性对于对抗样本的产生具有决定性作用,与体系结构、数据集和训练协议无关,表现为对抗误差具有与对抗扰动大小呈幂律的普适性,通过减小预测熵来提高对抗鲁棒性,在 CIFAR10 上使用神经架构搜索找到更鲁棒的架构。
Nov, 2017
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
该研究提出了一种新的对抗样本攻击方法,考虑到人类感知系统并最大化制作的对抗样本的噪声容忍度,实验结果证明了该技术的有效性。
Jan, 2018
提出一种基于永续度量的方法,通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本,旨在打破相对有限的目前攻击的限制,并可将其通过多个网络扩展到多个任务。
针对现代机器学习模型易受到对人类不可察觉的攻击的问题,采用对抗培训来学习鲁棒模型的代价是在未被扰动的测试集上存在更高的泛化误差,此研究证明更多的数据可能会增加鲁棒分类器与标准分类器泛化误差的差距并提出了理论结果以判定何时和何种情况下添加更多数据才能缩小这种差距,此现象也出现在线性回归模型中。
Feb, 2020