该研究探讨了使用 Stable Diffusion 生成的数据来增强对抗攻击的传递性,提出了一种基于 Stable Diffusion 的新型攻击方法,并提供了一个快速变体,通过实验证明该方法在对抗性传递性方面优于现有方法,并且与现有的基于传递的攻击方法相兼容。
Nov, 2023
本研究针对 Stable Diffusion 模型的脆弱性,提出一种生成特定图像的对抗性提示框架,并通过揭示导致模型脆弱性的机制来证明方法的有效性。
Jan, 2024
通过发现深度神经网络模型仍能保持预测能力,即使有意删除其对人类视觉系统至关重要的稳健特征,我们识别出了一种名为 “自然去噪扩散攻击(NDD)” 的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击,并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集 “自然去噪扩散攻击(NDDA)数据集”,来系统评估最新的文本 - 图像扩散模型的自然攻击能力的风险。我们通过回答 6 个研究问题来评估自然攻击能力,并通过用户研究证实了 NDD 攻击的有效性,发现 NDD 攻击能够实现 88% 的检测率,同时对 93% 的被试者具有隐蔽性。我们还发现,扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性,我们对一辆自动驾驶汽车进行了 NDD 攻击,发现 73% 的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于强大深度神经网络模型的研究。
Aug, 2023
我们的研究论文提出了一种基于动态防御策略和稳定扩散的方法,该方法旨在在不使用对抗性示例的情况下进行 AI 系统的训练,以创建一个更广泛范围攻击下具有内在韧性的系统,从而提供一种更广泛且更强大的针对对抗性攻击的防御。
May, 2024
论文介绍一种新型的对抗攻击方法 DiffAttack,该方法利用扩散模型的生成和判别能力,在隐空间中生成人类感知不到的、带有语义线索的扰动,并采用内容保持结构。考虑到攻击的传递性,DiffAttack 进一步 “欺骗” 扩散模型,以分散其注意力,达到更好的转移性能,实验结果表明,DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。
May, 2023
该研究论文提出了一种统一的框架 Adv-Diffusion,可以在潜在空间而不是原始像素空间中生成不可感知的对抗性身份扰动,利用潜在扩散模型的强大修补能力生成逼真的对抗性图像。通过在周围环境中生成语义扰动的身份敏感条件扩散生成模型,设计了自适应强度的对抗性扰动算法,既能确保攻击的可传递性又能保持隐秘性。在公开的 FFHQ 和 CelebA-HQ 数据集上进行了广泛的定性和定量实验,证明该方法在没有额外的生成模型训练过程的情况下取得了卓越的性能。源代码可在此链接中获取。
Dec, 2023
本研究提出了一种新的方法 ——Adversarial Camouflage,在数字和现实情境下都能够制造出看起来合理、而且几乎不被发现的隐形对抗样本,以此来检验 DNN 的鲁棒性。
Mar, 2020
提出一种基于扩散模型的新型自然对抗贴片生成方法,通过从模型中预训练的自然图片中抽样生成高质量的自然对抗贴片,达到了更好的质量和更自然的对抗贴片的生成效果。
Jul, 2023
在这篇论文中,我们系统评估了使用扰动在实际威胁模型下保护图像的方法,并介绍了一种能够在最大程度上保留原始图像结构的净化方法。实验证明,稳定扩散可以有效地从净化后的图像中学习,并且对各种保护方法具有良好的适应性。
本研究提出一种称为 StyLess 的对抗攻击方法,通过使用包含不同风格特征的样式化网络,以及利用自适应实例标准化来编码不同的风格特征,从而生成具有可转移性的扰动,以此提高对抗样本的攻击传递能力,并在与其他攻击技术结合时优于现有的攻击方法。
Apr, 2023