本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法,提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性,并提出了一种通用对抗性训练来生成抗干扰的分类器。
Nov, 2018
该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法,能使大部分相同类别的图像被错误分类,同时没有训练数据和超参数,并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明,标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。
Dec, 2019
本文研究了语音指令分类中存在的通用扰动问题,并提出了新的分析框架以测量扰动引入的畸变量。研究表明,通用攻击在不同模型中都能够实现,并且引入的畸变量随着普适性级别的提高而降低。同时,作者指出现有方法在解决语音领域的问题时存在不现实性。
Nov, 2019
本论文提出了一种不需要原始训练数据即可计算 UAPs 的数据无关对抗性检测框架,并对各种文本分类任务进行了实验证明其具有竞争性的检测性能,且与正常推断相当。
Jun, 2023
本研究总结了最近在通用对抗攻击领域里取得的进展,讨论了攻击和防御方面的挑战以及通用对抗攻击存在的原因,旨在成为一项动态研究,不定期更新其内容,包括图像、音频、视频和文本等多个领域,欢迎该领域的作者联系我们,以纳入您的新发现。
Mar, 2021
本文研究深度学习中的普适性对抗扰动,探讨相关的数据驱动和数据无关的生成方法及防御技术,并讨论了普适性对抗扰动在各项深度学习任务中的应用。
May, 2020
本文综述了最近在图像分类任务中的 UAPs 的进展,并将其分类为噪声攻击和生成器攻击,并提供了每个类别中代表性方法的全面概述,同时还评估了不同的损失函数在一致的培训框架内的各种攻击设置的有效性,最后提供了扰动的一些可视化及未来的潜在研究方向。
提出了一种新的通用攻击方法 CD-UAP, 可以生成一个唯一的通用扰动,以欺骗目标网络,使其错误分类只选定的类组,而对其余类组影响有限。通过基于各种损失函数配置的算法框架来设计并比较,其在各种基准数据集上进行了广泛的实验,获得了最先进的性能。
Oct, 2020
本篇论文探究如何通过生成普遍的对抗扰动,使卷积神经网络的语义图像分割结果变为预设的结果,同时还研究了去除语义图像中某个目标类别的扰动。
Apr, 2017
本篇论文针对机器学习模型中的对抗扰动问题,提出了一种新的、通用的、不依赖于数据的目标函数,通过在多个层次上损坏提取的特征来生成图像无关的对抗扰动。实验结果表明,该目标函数相比于现有的方法具有更好的鲁棒性,能够在黑盒攻击场景下有效攻击深度学习模型,从而强调当前的深度学习模型面临着风险。
Jan, 2018