扩散模型的隐藏语言
Diffusion Partial Information Decomposition (DiffusionPID) is a novel technique applied to decompose the input text prompt, enabling a detailed examination of how individual tokens and their interactions shape the generated image in text-to-image diffusion models, addressing unanswered questions and biases analysis.
Jun, 2024
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
通过研究强潜在扩散概率模型在 T2I 生成过程中的中间状态,发现图像在早期生成阶段主要由文本引导完成,之后概率模型通过自身信息来完善生成图像的细节,并进一步提出了去除文本引导以加速 T2I 生成过程的方法,加速效果达到 25%+
May, 2024
本文研究了文本嵌入空间,发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义,并揭示文本嵌入本身具有多样的语义潜力,通过奇异值分解来进一步揭示这一特性,这些发现对图像编辑和语义发现具有实际应用价值。
Apr, 2024
利用主题驱动的文本到图像扩散模型,用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而,现有的主题驱动模型主要依赖于单一概念的输入图像,在处理多概念输入图像时面临着目标概念的指定困难。为此,我们引入了一种文本本地化的文本到图像模型(Texual Localization)来处理多概念输入图像。在微调过程中,我们的方法采用了一种新颖的交叉注意力引导方法,分解多个概念,在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明,在多概念输入图像上,我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比,我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04%,8.13%,多概念生成的 CLIP-T 得分相对提高 2.22%,5.85%。值得注意的是,我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
Feb, 2024
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
TokenCompose 是一种用于文本到图像生成的潜在扩散模型,通过在微调阶段引入图像内容和对象分割映射之间的标记一致性项,改善多类别实例组合,并提高生成图像的逼真度。
Dec, 2023
我们提出了扩散镜,一种用于分析 T2I 模型中的文本编码器的方法,通过从其中间表示生成图像。通过扩散镜,我们对两个最近的 T2I 模型进行了广泛分析。我们发现,描述多个对象的复杂场景相对简单的场景被逐步且更慢地生成;我们还发现,表示不常见概念需要更多计算,并且知识检索在各层之间逐步进行。总的来说,我们的研究结果为 T2I 流程中的文本编码器组件提供了有价值的见解。
Mar, 2024