通过有针对性的攻击揭示稳定扩散中的漏洞

Jan, 2024

通过有针对性的攻击揭示稳定扩散中的漏洞

Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks

Chenyu Zhang, Lanjun Wang, Anan Liu

TL;DR本研究针对Stable Diffusion模型的脆弱性，提出一种生成特定图像的对抗性提示框架，并通过揭示导致模型脆弱性的机制来证明方法的有效性。

Abstract

Recent developments in text-to-image models, particularly stable diffusion, have marked significant achievements in various applications. With these advancements, there are growing safety concerns about the

发现论文，激发创造

面向不可察觉和可迁移对抗攻击的扩散模型

论文介绍一种新型的对抗攻击方法 DiffAttack，该方法利用扩散模型的生成和判别能力，在隐空间中生成人类感知不到的、带有语义线索的扰动，并采用内容保持结构。考虑到攻击的传递性，DiffAttack 进一步“欺骗”扩散模型，以分散其注意力，达到更好的转移性能，实验结果表明，DiffAttack 在各种模型结构和防御方法下具有更高的攻击成功率。

May, 2023

理解和改进潜在扩散模型上的对抗攻击

通过引入全面的理论框架并提出新的对抗性攻击方法，本文对基于LDM的对抗性攻击进行了深入研究，通过严格的实验，证明该方法优于现有攻击方法，并能在不同的基于LDM的少样本生成流程中进行泛化，成为在新一代强大生成模型中可为暴露于数据隐私和安全风险中的人们提供更强大和高效的保护工具。

Oct, 2023

安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

我们提出了一种基于对抗攻击的评估框架，用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性，证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。

Oct, 2023

稳定扩散提高对抗转移性

该研究探讨了使用Stable Diffusion生成的数据来增强对抗攻击的传递性，提出了一种基于Stable Diffusion的新型攻击方法，并提供了一个快速变体，通过实验证明该方法在对抗性传递性方面优于现有方法，并且与现有的基于传递的攻击方法相兼容。

Nov, 2023

越狱快速攻击：一种针对扩散模型的可控对抗攻击

通过黑盒攻击方法和分类器自由引导的概念，本研究暴露和强调了现有防御机制的脆弱性，这给图像生成社区带来了安全问题。

Apr, 2024

像素是一道屏障：扩散模型比我们认为的更具对抗性的鲁棒性

通过对扩散模型中的对抗性示例进行研究，我们发现扩散模型在像素空间中对抗性示例(即PDMs)具有较强的鲁棒性，并可用作有效去除对LDMs生成的对抗性模式的净化器，使得现有的多种保护方法在一定程度上无法有效保护我们的图像。

Apr, 2024

欺骗性扩散：生成合成对抗样本

引入了欺骗扩散的概念--训练生成AI模型以产生具有对抗性的图像。与传统的对抗性攻击算法不同，欺骗扩散模型可以创建任意数量的新的、被错误分类的图像，这些图像与训练或测试图像没有直接关联。欺骗扩散在规模上提供了对抗性训练数据以加强防御算法，包括在其他情况下难以找到的错误分类类型。在我们的实验中，我们还研究了在部分受攻击数据集上进行训练的效果。这突出了生成扩散模型的一种新型漏洞：如果攻击者能够秘密地污染部分训练数据，那么生成的扩散模型将产生相似比例的误导输出。

Jun, 2024

生成扩散模型的攻击与防御：综合调查

本研究解决了生成扩散模型（DMs）在安全性方面的重大问题，特别是其易受到多种攻击的弱点。通过全面调查现有攻击和防御方法，作者提出了对不同类型DMs的深入分析，并指出了潜在的防御措施和未来研究方向。该研究的发现为改善DMs的安全性提供了重要的参考，促进了对这一日益重要领域的理解和关注。

Aug, 2024

无提示对抗扰动的定制扩散模型

本研究解决了定制扩散模型中存在的隐私泄露和艺术作品未经授权复制等风险，提出了一种无提示对抗扰动（PAP）方法。这种方法通过拉普拉斯近似建模提示分布，并基于建模分布最大化扰动期望，显著提高了对抗攻击的防御稳定性，在人脸隐私和艺术风格保护方面表现出优越的泛化能力。

Aug, 2024

防御文本到图像扩散模型：文本扰动对后门攻击的惊人有效性

本研究旨在解决文本到图像扩散模型面临的后门攻击问题，指出现有的防御措施尚未充分探索。作者提出了一种新颖的防御策略——文本扰动，证明其能够有效抵御先进的后门攻击，并在图像生成质量上保持最小损失。该研究为后续攻击与防御策略的研究提供了重要的见解。

Aug, 2024