像素并非障碍：针对像素域扩散模型的有效规避攻击

Aug, 2024

像素并非障碍：针对像素域扩散模型的有效规避攻击

Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models

Chun-Yen Shih, Li-Xuan Peng, Jia-Wei Liao, Ernie Chu, Cheng-Fu Chou...

TL;DR本研究解决了像素域扩散模型遭受恶意编辑风险的问题，提出了一种新的攻击框架，通过特征表示攻击损失来利用去噪UNet的脆弱性，并采用潜在优化策略提升受保护图像的自然性。实验表明，该方法在攻击主流的PDM编辑方法时保持了合理的保护保真度，并对常见防御方法展现出强健性，且适用于LDMs。

Abstract

Diffusion Models have emerged as powerful generative models for high-quality image synthesis, with many subsequent Image Editing techniques based on them. However, the ease of text-based →

发现论文，激发创造

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步“欺骗”扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

扩散模型的引人入胜特性：用于评估文本到图像生成模型自然攻击能力的大规模数据集

通过发现深度神经网络模型仍能保持预测能力，即使有意删除其对人类视觉系统至关重要的稳健特征，我们识别出了一种名为“自然去噪扩散攻击（NDD）”的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击，并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集“自然去噪扩散攻击（NDDA）数据集”，来系统评估最新的文本-图像扩散模型的自然攻击能力的风险。我们通过回答6个研究问题来评估自然攻击能力，并通过用户研究证实了NDD攻击的有效性，发现NDD攻击能够实现88%的检测率，同时对93%的被试者具有隐蔽性。我们还发现，扩散模型嵌入的非稳健特征对于自然攻击能力起到了贡献作用。为了证明攻击的模型无关性和可转换性，我们对一辆自动驾驶汽车进行了NDD攻击，发现73%的物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够帮助社区意识到扩散模型的风险，并促进更多关于强大深度神经网络模型的研究。

Aug, 2023

理解和改进潜在扩散模型上的对抗攻击

通过引入全面的理论框架并提出新的对抗性攻击方法，本文对基于LDM的对抗性攻击进行了深入研究，通过严格的实验，证明该方法优于现有攻击方法，并能在不同的基于LDM的少样本生成流程中进行泛化，成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。

Oct, 2023

通过分数蒸馏实现对基于扩散模仿的有效保护

本研究针对生成扩散模型，发现攻击点在于编码器模块，并提出了Score Distillation Sampling (SDS) 策略来保护图像并减少内存占用，同时通过最小化语义损失生成更自然的扰动，希望能够为恶意扩散模仿的防御做出贡献。

Oct, 2023

像素是一道屏障：扩散模型比我们认为的更具对抗性的鲁棒性

通过对扩散模型中的对抗性示例进行研究，我们发现扩散模型在像素空间中对抗性示例(即PDMs)具有较强的鲁棒性，并可用作有效去除对LDMs生成的对抗性模式的净化器，使得现有的多种保护方法在一定程度上无法有效保护我们的图像。

Apr, 2024

扩散模型的隐形后门攻击

本文介绍了一种创新而多功能的优化框架，用于获取不可见的触发器，增强插入后门的隐蔽性和韧性。我们的研究首次展示了在文本引导的图像编辑和修复流程中进行扩散模型后门注入的能力，同时还发现条件生成中的后门直接适用于模型水印验证，进一步提升了所提框架的重要性。多个常用采样器和数据集上的广泛实验证实了所提框架的有效性和隐蔽性。

Jun, 2024

PID: 针对潜在扩散模型的独立提示数据保护

通过对视觉编码器的操作，提出了名为Prompt-Independent Defense（PID）的简单而有效的方法，以保护数据免受Latent Diffusion Models（LDMs）的侵害，并显著减少计算资源的需求。

Jun, 2024

生成扩散模型的攻击与防御：综合调查

本研究解决了生成扩散模型（DMs）在安全性方面的重大问题，特别是其易受到多种攻击的弱点。通过全面调查现有攻击和防御方法，作者提出了对不同类型DMs的深入分析，并指出了潜在的防御措施和未来研究方向。该研究的发现为改善DMs的安全性提供了重要的参考，促进了对这一日益重要领域的理解和关注。

Aug, 2024

针对潜在扩散模型的灰盒攻击：后验崩溃

本研究解决了潜在扩散模型（LDMs）在图像编辑中的数据滥用和知识产权侵犯问题。提出的后验崩溃攻击（PCA）不依赖于目标模型的白盒信息，通过利用VAE编码器的少量参数，显著降低了生成图像的语义质量和感知一致性。实验结果表明，PCA在生成图像的干扰效果上优于现有技术，为应对生成AI带来的社会技术挑战提供了更强大且通用的解决方案。

Aug, 2024

DiffusionGuard: 一种针对恶意扩散式图像编辑的强健防御

本研究针对扩散模型的潜在滥用问题，提出了DiffusionGuard，一种有效的防御方法，旨在保护用户免受未经授权的图像编辑。通过分析扩散过程，我们设计了针对早期阶段的对抗噪声生成目标，并引入了掩膜增强技术，以提高对各种掩膜的鲁棒性。实验表明，该方法在多个性能指标上均优于现有基准，展示了其强大的保护能力和较低的计算成本。

Oct, 2024