用于克服扩散模型中概念抑制的概念算术

Apr, 2024

用于克服扩散模型中概念抑制的概念算术

Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

Vitali Petsiuk, Kate Saenko

TL;DR通过结合多个提示进行图像生成的分散模型的构成性属性在本文中被利用，提出了对安全措施的攻击方法，并讨论了该发现对安全模型部署的影响。同时，也开启了对分散模型的概念算术和组合推理对安全机制的讨论。

Abstract

Motivated by ethical and legal concerns, the scientific community is actively developing methods to limit the misuse of text-to-image diffusion models for reproducing copyrighted, violent, explicit, or personal information in the generated images. Simultaneously, researchers put these

text-to-image diffusion models safety measures adversarial attacks vector reconstruction diffusion model safety mechanisms

发现论文，激发创造

六 - CD：用于良性文本图像扩散模型概念去除的基准测试

通过引入新数据集 Six-CD 和新评估指标，我们对文本到图像扩散模型中的概念去除方法进行了细致评估，并提供了有价值的观察和讨论。

Jun, 2024

面向互联网规模文本到图像扩散模型的安全自蒸馏

本文提出了一种叫做 SDD 的方法，可以在图像生成模型中避免生成有害内容，该方法相对于之前的方法可以更彻底地除去生成图像中的有害内容，同时保持图像的整体质量，并且能够一次性去除多个概念。

Jul, 2023

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

扩散模型越强，后门越容易：通过数据投毒实现版权侵权而无需调整微调流程

通过在精选数据集中插入有毒数据，利用多模式大型语言模型和文本引导的图像修复技术，本研究证实了在触发特定提示时，微调扩散模型可以生成受版权保护的内容，从而揭示了现行版权保护策略中潜在的陷阱，强调了对扩散模型滥用的加强审查和预防措施的必要性。

Jan, 2024

MMA-Diffusion：多模态对抗扩散模型

近年来，文本到图像（T2I）模型取得了显著进展并广泛应用，然而这一进展无意中开辟了潜在的滥用途径，尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion，这是一个对 T2I 模型安全性构成严重和真实威胁的框架，通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同，MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施，从而揭示现有防御机制的弱点。

Nov, 2023

自我发现可解释的扩散潜在方向用于负责任的文本到图像生成

通过自监督方法找到可解释的潜在方向，提出了一种简单的方法来缓解不合适的图像生成。进行了广泛实验证明了缓解方法的有效性，特别是对于公平生成、安全生成和负责任的文本增强生成。

Nov, 2023

稳定扩散模型的组合逆转

通过引入核心分布和空间正则化方法，我们的研究提出一种针对合成嵌入图像中过拟合问题的反转过程指导方法，使生成的图像中的概念更加多元和均衡。

Dec, 2023

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

通过多模态数据污染很容易植入后门的文本转图像扩散模型

本文通过在三个语义层次（像素、物体和风格）上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论，提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明，现代扩散模型可以在几个微调步骤内轻易被后门攻击，在进一步的训练过程中攻击效果仍能保持。

May, 2023

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022