Jedi: 基于熵的对抗性补丁定位和消除
最近的研究表明,深度神经网络对于对抗性攻击很容易受到攻击,而精心训练的样本或补丁可以欺骗神经网络检测器或人类视觉感知。为了解决这个问题,本文提出了一种名为潜在扩散补丁(LDP)的新型对抗性补丁方法,首先设计了一个预训练的编码器将自然图像压缩到具有关键特征的特征空间,然后使用上述特征空间训练扩散模型,最后通过图像去噪技术探索预训练扩散模型的潜在空间,通过扩散模型的强大的自然能力对补丁和图像进行改进,使它们更容易被人类视觉系统接受。实验结果在数字和物理世界中均表明,LDP 在视觉主观评分上达到了 87.3%,同时仍然保持有效的攻击能力。
Dec, 2023
通过将能量引入到对抗补丁生成过程中,本文介绍了如何最小化 “人” 类别的总能量,以生成针对多个目标模型输出的对抗补丁。通过采用对抗训练,将动态优化的集成模型构建为在生成的对抗补丁能够有效攻击所有目标模型的平衡点上调整被攻击目标模型的权重参数,实现了更强的攻击潜力。
Dec, 2023
提出了一种名为 PAD 的新颖的对抗贴纸定位和去除方法,该方法不需要先前知识或额外训练,提供了针对各种对抗贴纸的无关补丁防御,与任何预训练的物体检测器兼容。
Apr, 2024
提出了一种可通过物理方式应用于图像中的明显但具有对抗性的矩形贴片,并利用对抗训练的方式来增强深度神经网络对对抗贴片的鲁棒性,这种训练不会降低网络的分类准确率。
May, 2020
我们提出了一种新的基于关键词的防御方法,注重效率和鲁棒性,在大型数据集如 ImageNet 上的有效训练非常困难。该防御方法通过效率训练和可选随机化的两个重要改进来构建,以一个或多个秘密的补丁嵌入和分类器头与预训练的各向同性网络相结合,实现对已知攻击的高鲁棒性和可比较的净准确性。
Sep, 2023
近期,在深度模型的推断计算方面取得了很多进展,这些方法可以减少深度模型的计算需求和功耗。我们展示了这些模型容易受到普适性对抗贴片攻击的影响,攻击者通过优化一个贴片,将其粘贴到任意图像上可以增加模型的计算量和功耗。我们运行实验使用了三种不同的高效视觉转换器方法,显示在某些情况下,攻击者只需将一个只占图像面积的 8% 的贴片粘贴上即可将计算量增加到最大限度。同时我们还展示了标准对抗性训练防御方法可以减少攻击的成功率。我们相信为降低深度模型的功耗,未来需要采用自适应高效的方法,希望我们的论文可以鼓励研究人员研究这些方法的强韧性,并开发更好的防御方法来对抗这种攻击。
Oct, 2023
该研究提出一种基于生成对抗网络(GAN)图像流形和物理世界的无梯度攻击方法,用于生成自然物理的对抗贴片以欺骗对目标物体检测器的分类。结果表明,该方法在数字和物理场景下均有效。
Mar, 2023
本文提出了一种生成难以察觉的对抗性贴片的方法,通过利用多尺度生成器和辨别器粗粒度到细粒度地生成对抗贴片,并在对抗训练中使其保持一致性,从而在白盒设置中展示强大的攻击能力和在黑盒设置中的卓越可转移性。与其他对抗性贴片相比,我们的对抗性贴片具有最小的被检测风险并可以逃避人类观察,这得到了显著实验结果的支持。
Jun, 2021
通过使用类似 GAN 的结构,本文提出了一种新的方法生成对抗补丁,该补丁克服了与视觉 Transformer 进行线性投影的贴片完美对齐的约束,使得该补丁能够在视野内的任何位置发动定向攻击,并且无论是在数字环境还是在真实世界的情况下都表现出普遍攻击的有效性。
Jul, 2023