本文研究深度学习中的普适性对抗扰动,探讨相关的数据驱动和数据无关的生成方法及防御技术,并讨论了普适性对抗扰动在各项深度学习任务中的应用。
May, 2020
本文提出了一种针对深度网络易受对抗扰动攻击的问题的方法,使用预训练网络生成图像无关对抗扰动(UAPs),并通过在源模型的第一层仅关注对抗能量的损失,提高了 UAPs 的传递性,并在实验中展示了该方法的优越性。
Oct, 2020
本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题,并在图像分类和语义分割方面展示了结果。
Dec, 2018
本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法,提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性,并提出了一种通用对抗性训练来生成抗干扰的分类器。
Nov, 2018
该研究提出了新型生成模型,用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验,它证明了这种扰动具有高弄虚率和较小的扰动规模,并且比当前的迭代方法更快。
Dec, 2017
本篇论文探究如何通过生成普遍的对抗扰动,使卷积神经网络的语义图像分割结果变为预设的结果,同时还研究了去除语义图像中某个目标类别的扰动。
Apr, 2017
本文研究了深度神经网络分类器,发现存在普适的微小扰动对所有图像都造成高概率的错误分类,并提出了计算普适扰动的系统算法,证明现有神经网络非常容易受到该扰动攻击,从而出现对人眼几乎无法察觉的误分类。我们为了进一步探究这些扰动,对多个神经网络进行了实证分析并发现它们具有良好的通用性,揭示了分类器高维决策边界之间的重要几何相关性,并指出任何攻击者都可以在输入空间中利用这些单方向的存在来破坏大多数自然图像的分类器带来潜在的安全隐患。
Oct, 2016
本文提出了一种基于生成对抗网络的方法,通过优化骗过分类器的目标和增加多样性的目标训练生成器,从而模拟对抗性扰动的分布,生成多样的对抗性扰动,实现了在各种分类器上实现骗过率最大化,展示出了更好的通用性。
该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法,能使大部分相同类别的图像被错误分类,同时没有训练数据和超参数,并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明,标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。
Dec, 2019
我们提出了一种新的技术,使用生成对抗网络使神经网络对抗性示例具有鲁棒性,通过交替训练分类器和生成器网络,我们成功地应用于 CIFAR 数据集的监督学习,实验结果表明我们的方法显著降低了网络的泛化误差。这是我们所知道的第一个使用 GAN 改进监督学习的方法。
May, 2017