扩散模型的引人入胜特性：用于评估文本到图像生成模型自然攻击能力的大规模数据集

Aug, 2023

扩散模型的引人入胜特性：用于评估文本到图像生成模型自然攻击能力的大规模数据集

Intriguing Properties of Diffusion Models: A Large-Scale Dataset for Evaluating Natural Attack Capability in Text-to-Image Generative Models

PDF

Takami Sato, Justin Yue, Nanze Chen, Ningfei Wang, Qi Alfred Chen

TL;DR通过发现深度神经网络模型仍能保持预测能力，即使有意删除其对人类视觉系统至关重要的稳健特征，我们识别出了一种名为 “自然去噪扩散攻击（NDD）” 的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击，并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集 “自然去噪扩散攻击（NDDA）数据集”，来系统评估最新的文本 - 图像扩散模型的自然攻击能力的风险。我们通过回答 6 个研究问题来评估自然攻击能力，并通过用户研究证实了 NDD 攻击的有效性，发现 NDD 攻击能够实现 88% 的检测率，同时对 93% 的被试者具有隐蔽性。我们还发现，扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性，我们对一辆自动驾驶汽车进行了 NDD 攻击，发现 73% 的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险，并促进更多关于强大深度神经网络模型的研究。

Abstract

denoising probabilistic diffusion models have shown breakthrough performance that can generate more photo-realistic images or human-level illustrations than the prior models such as GANs. This high image-generati

denoising probabilistic diffusion models natural denoising diffusion attack ndda dataset natural attack capability diffusion models

发现论文，激发创造

使用扩散模型的威胁模型不可知对抗性防御

本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法，该方法利用了随机生成建模的最新进展，并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声，然后进行预训练扩散过程，该方法表现出了可观的鲁棒性。该鲁棒性在 CIFAR-10 数据集上经过了广泛的实验验证，表明我们的方法在各种威胁模型下优于主要的防御方法。

Jul, 2022

关于深度伪造检测器对去噪扩散模型攻击的漏洞

本研究探讨了单图 Deepfake 检测器对最新生成方法之一，去噪扩散模型（DDM）的攻击的脆弱性，并在 FaceForensics ++ 数据集上进行了测试，结果表明单个去噪扩散步骤可以显著降低所有经过测试检测器的准确性而不引入明显的视觉变化

Jul, 2023

从扩散到混淆：基于扩散模型的自然敌对图案生成用于目标检测

提出一种基于扩散模型的新型自然对抗贴片生成方法，通过从模型中预训练的自然图片中抽样生成高质量的自然对抗贴片，达到了更好的质量和更自然的对抗贴片的生成效果。

Jul, 2023

基于潜在扩散模型的自然对抗图像补丁生成方法

最近的研究表明，深度神经网络对于对抗性攻击很容易受到攻击，而精心训练的样本或补丁可以欺骗神经网络检测器或人类视觉感知。为了解决这个问题，本文提出了一种名为潜在扩散补丁（LDP）的新型对抗性补丁方法，首先设计了一个预训练的编码器将自然图像压缩到具有关键特征的特征空间，然后使用上述特征空间训练扩散模型，最后通过图像去噪技术探索预训练扩散模型的潜在空间，通过扩散模型的强大的自然能力对补丁和图像进行改进，使它们更容易被人类视觉系统接受。实验结果在数字和物理世界中均表明，LDP 在视觉主观评分上达到了 87.3％，同时仍然保持有效的攻击能力。

Dec, 2023

关于检测扩散模型生成的合成图像

本文旨在了解人们无法将由扩散模型产生的合成图像与原始图像区分开来的难度，并研究当前的最先进检测器是否适用于此任务。

Nov, 2022

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

通过敌对攻击评估深度图像去噪模型的相似性和鲁棒性

本文研究表明通过对深度图像去噪模型的分析，研究者发现神经网络在面对对抗性攻击时具有脆弱性，但加入对抗性训练后可以提高鲁棒性。

Jun, 2023

扩散攻击：利用稳定扩散进行自然图像攻击

通过结合风格转移的方法，我们提出了一个框架来针对虚拟现实中的对抗性攻击，制造具有自然风格的对抗输入，以达到最小可探测性和最大自然外观，同时保持卓越的攻击能力。

Mar, 2024

AdvDiff：使用扩散模型生成无限制的对抗样本

提出了一种新方法 AdvDiff，使用扩散模型生成无限制的对抗样本，并通过两种新的对抗引导技术在扩散模型的逆生成过程中进行对抗采样，实现了高质量、逼真的对抗样本生成。实验证明，AdvDiff 在攻击性能和生成质量方面优于基于 GAN 的方法。

Jul, 2023

稳定扩散提高对抗转移性

该研究探讨了使用 Stable Diffusion 生成的数据来增强对抗攻击的传递性，提出了一种基于 Stable Diffusion 的新型攻击方法，并提供了一个快速变体，通过实验证明该方法在对抗性传递性方面优于现有方法，并且与现有的基于传递的攻击方法相兼容。

Nov, 2023