通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

Mar, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion

Inhwa Han, Serin Yang, Taesung Kwon, Jong Chul Ye

TL;DR本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Abstract

diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating →

diffusion models image generation image content personalization hiper text embedding

发现论文，激发创造

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

DiffusionCLIP: 文本引导下的扩散模型用于稳健的图像处理

该研究提出了一种名为 DiffusionCLIP 的新方法，该方法使用扩散模型进行文本驱动的图像操作，比现有基线表现更为优异，并允许简便的多属性操作。

Oct, 2021

AttnDreamBooth: 面向文本对齐的个性化文本与图像生成

该研究针对文本到图像个性化合成过程中的限制性问题，分析了两种主要技术（文本反转和 DreamBooth）的不足之处，并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题，通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时，采用交叉注意力图正则化项来增强对注意力图的学习，相较于基准方法，我们的方法在保护身份信息和文本对齐方面取得了显著改进。

Jun, 2024

文本图像指导的扩散模型用于生成深度伪造的名人互动

通过改进扩散模型以生成可控高质量的深度伪造图像，并使用 Dreambooth 训练提供更真实和个性化的输出图像，该研究展示了以惊人的逼真度创建虚假的视觉内容，并可作为权力政治人物会面的可信证据。

Sep, 2023

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

AnimateDiff: 个性化文本图像扩散模型的动画化方法

通过在冻结的文本到图像模型中插入一个新初始化的动态建模模块并对其进行视频剪辑训练，我们提出了一个实用的框架，一劳永逸地使大多数现有的个性化文本到图像模型都能够生成多样化和个性化的动态图像。

Jul, 2023

增强身份保护对于扩散个性化的数据观点

使用大型文本到图像模型生成图像的能力已经引起了巨大的变革，但是对于特定独特或个人化的视觉概念，如您的宠物、屋内物品等，并不能被原始模型捕捉到。本文通过采用数据为中心的方法，提出了一种新颖的正则化数据集生成策略，旨在解决文本连贯性丧失和身份保留问题，进一步提高图像质量，并能生成符合输入文本提示的多样样本。实验证明，我们的数据为中心的方法在图像质量方面具有新的技术实力，在身份保留、多样性和文本对齐之间取得了最佳的平衡。

Nov, 2023

揭示文本 - 图像扩散模型中的文本嵌入

本文研究了文本嵌入空间，发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义，并揭示文本嵌入本身具有多样的语义潜力，通过奇异值分解来进一步揭示这一特性，这些发现对图像编辑和语义发现具有实际应用价值。

Apr, 2024