扩散模型的隐藏语言

Jun, 2023

The Hidden Language of Diffusion Models

Hila Chefer, Oran Lang, Mor Geva, Volodymyr Polosukhin, Assaf Shocher...

TL;DR本文针对文本到图像模型中的特征表征进行了分解，通过学习一个假的标记，将输入文本提示分解为一小组可解释元素，对现有良好的稳定扩散模型进行了应用，我们发现某些概念由特定实例主导，而其他概念则结合具体和抽象的关联术语，此外，我们的方法还可以实现单幅图像分解、偏置检测和缓解以及语义图像操作。

Abstract

text-to-image diffusion models have demonstrated an unparalleled ability to generate high-quality, diverse images from a textual concept (e.g., "a doctor", "love"). However, the internal process of mapping text to a rich visual representation remains an enigma. In this work, we tackle

text-to-image concept representations decomposition sparse weighted combination stable diffusion

发现论文，激发创造

DiffusionPID: 通过部分信息分解解释扩散

Diffusion Partial Information Decomposition (DiffusionPID) is a novel technique applied to decompose the input text prompt, enabling a detailed examination of how individual tokens and their interactions shape the generated image in text-to-image diffusion models, addressing unanswered questions and biases analysis.

Jun, 2024

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

探索文本到图像扩散模型的工作机制

通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态，发现图像在早期生成阶段主要由文本引导完成，之后概率模型通过自身信息来完善生成图像的细节，并进一步提出了去除文本引导以加速 T2I 生成过程的方法，加速效果达到 25%+

May, 2024

揭示文本 - 图像扩散模型中的文本嵌入

本文研究了文本嵌入空间，发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义，并揭示文本嵌入本身具有多样的语义潜力，通过奇异值分解来进一步揭示这一特性，这些发现对图像编辑和语义发现具有实际应用价值。

Apr, 2024

文本定位：为主题驱动的文本到图像生成分解多概念图像

利用主题驱动的文本到图像扩散模型，用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而，现有的主题驱动模型主要依赖于单一概念的输入图像，在处理多概念输入图像时面临着目标概念的指定困难。为此，我们引入了一种文本本地化的文本到图像模型（Texual Localization）来处理多概念输入图像。在微调过程中，我们的方法采用了一种新颖的交叉注意力引导方法，分解多个概念，在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明，在多概念输入图像上，我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比，我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04％，8.13％，多概念生成的 CLIP-T 得分相对提高 2.22％，5.85％。值得注意的是，我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射，这是现有模型所没有的能力。

Feb, 2024

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

多概念 T2I-Zero：仅调整文本嵌入，不涉及其他部分

通过对预训练文本到图像扩散模型中的文本嵌入进行微调，我们设计了一种低成本的解决方案，实现自然多概念文本到图像生成，并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献，并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合，从而在文本到图像、图像操作和个性化任务中优于以前的方法。

Oct, 2023

TokenCompose: 基于令牌级监督的语义扩散

TokenCompose 是一种用于文本到图像生成的潜在扩散模型，通过在微调阶段引入图像内容和对象分割映射之间的标记一致性项，改善多类别实例组合，并提高生成图像的逼真度。

Dec, 2023

扩散镜：在文本到图像处理过程中解释文本编码器

我们提出了扩散镜，一种用于分析 T2I 模型中的文本编码器的方法，通过从其中间表示生成图像。通过扩散镜，我们对两个最近的 T2I 模型进行了广泛分析。我们发现，描述多个对象的复杂场景相对简单的场景被逐步且更慢地生成；我们还发现，表示不常见概念需要更多计算，并且知识检索在各层之间逐步进行。总的来说，我们的研究结果为 T2I 流程中的文本编码器组件提供了有价值的见解。

Mar, 2024