当前关于对抗性鲁棒性的研究是否解决了正确的问题?
本文研究了对抗扰动现象,并推导了任何分类函数的鲁棒性的基本上界,以及证明了存在跨不同分类器传递的具有小风险的对抗扰动。研究显示了生成模型的关键属性,如平滑性和潜在空间的维度,并提供了信息量大的鲁棒性基线。
Feb, 2018
本论文分析了深层网络的一个有趣现象,即它们对于对抗性扰动的不稳定性,并提出了一个分析分类器鲁棒性的理论框架,并且为对抗性扰动的鲁棒性建立了一个上限。具体而言,我们建立了分类器对于对抗性扰动的鲁棒性的一个通用上限并用一些线性和二次分类器的例子说明了所获得的上限。我们的结果表明,在涉及小区分能力的任务中,所有选定的分类器将不会对于对抗性扰动产生鲁棒性,即使达到了较高的准确率。
Feb, 2015
该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性,并发现只有使用对抗样本进行训练才能获得鲁棒性,并分析了鲁棒性和准确性之间的权衡。
Jun, 2023
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
通过稳健优化方法探究神经网络对抗攻击的鲁棒性,设计出对抗攻击和训练模型的可靠方法,提出对于一阶对手的安全保证,并得到针对广泛对抗攻击的高鲁棒性网络模型。
Jun, 2017
我们证明了,追求对抗鲁棒性和标准泛化之间存在固有的紧张关系,训练鲁棒性模型不仅可能更加费时,也会导致标准准确性的降低,并且这种现象是由于鲁棒分类器学习了根本不同的特征表示方法。
May, 2018
通过对高维度输入数据的实践系统进行观察,我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性,以及随机扰动的鲁棒性同时易受影响的基本特性,证实了这一现象。然而,令人惊讶的是,即使对于分类器决策边界与训练和测试数据之间只有很小的边距,也很难通过随机取样的扰动来检测到对抗性示例,因此需要更严格的对抗性训练。
Sep, 2023
当前关于对抗样本的防御研究主要集中在实现对单一攻击类型的健壮性,然而,可能的扰动空间更广泛,目前无法由单一攻击类型建模。当前防御方法的关注点与攻击空间的差异性引发了对现有防御方法的可行性和评估的可靠性的质疑。在本立场论文中,我们主张研究界应该超越单一攻击健壮性,并着重介绍三个潜在方向,包括:多同时攻击健壮性、未知攻击健壮性以及我们所定义的连续自适应健壮性问题。我们提供了一个统一的框架,严格定义了这些问题设置,综合了这些领域的现有研究,并概述了开放性研究方向。我们希望我们的立场论文能够激发出更多关于多同时攻击、未知攻击和连续自适应健壮性的研究。
May, 2024