扩散模型中定制概念的非混淆生成

May, 2024

扩散模型中定制概念的非混淆生成

Non-confusing Generation of Customized Concepts in Diffusion Models

Wang Lin, Jingyuan Chen, Jiaxin Shi, Yichen Zhu, Chen Liang...

TL;DR通过文本引导的扩散模型解决了组合概念生成中的常见挑战——概念之间的视觉混淆，并针对定制概念的生成提出了一种简单有效的解决方案CLIF：对比图像-语言微调，实验证明其在防止多定制概念生成中的混淆方面非常有效。

Abstract

We tackle the common challenge of inter-concept visual confusion in compositional concept generation using text-guided diffusion models (T

发现论文，激发创造

文本到图像扩散的多概念自定义

本文介绍了一种基于Custom Diffusion的文本到图像生成模型，只需少量优化参数即可表示新概念并实现快速调整，还可以通过约束优化共同训练多个概念或组合多个微调模型，并在新颖的环境中将多个概念无缝组合生成，此方法在记忆和计算效能方面都占有优势。

Dec, 2022

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

MultiFusion：预训练模型融合用于多语言，多模态图像生成

本文提出了一种名为MultiFusion的方法，利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中，从而大幅提高了效率。实验证明，MultiFusion可以将各个独立的组件整合起来，使图像生成模块能够利用来自各种语言和模态的输入。

May, 2023

多概念T2I-Zero：仅调整文本嵌入，不涉及其他部分

通过对预训练文本到图像扩散模型中的文本嵌入进行微调，我们设计了一种低成本的解决方案，实现自然多概念文本到图像生成，并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献，并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合，从而在文本到图像、图像操作和个性化任务中优于以前的方法。

Oct, 2023

掌握文本到图像扩散：多模态LLM的重新字幕、规划和生成

提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG，该框架利用多模态LLMs的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。

Jan, 2024

跨模态语境扩散模型的文本导向视觉生成与编辑

我们提出了一种新颖而通用的上下文扩散模型(ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的ContextDiff实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Feb, 2024

概念编织者：在文本与图像模型中实现多概念融合

该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法——Concept Weaver。该方法将过程分为两个步骤：创建与输入提示语义对齐的模板图像，然后使用概念融合策略个性化该模板。研究结果表明，与替代方法相比，我们的方法能够生成具有较高身份保真度的多个定制概念。此外，该方法能够无缝处理多个概念，并且在紧密遵循输入提示的语义含义时不会混合不同主题的外观。

Apr, 2024

MC$^2$：定制多概念生成的多概念引导

MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.

Apr, 2024

LLM4GEN：利用语义表示的LLM用于文本到图像生成

LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块，有效提高了复杂和密集提示的语义理解能力，为text-to-image生成任务带来了显著改进，并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024

CusConcept：基于扩散模型的定制视觉概念分解

本研究解决了从单一图像中分解视觉概念的复杂问题。我们提出了CusConcept这一新方法，通过两阶段框架提取定制化视觉概念嵌入向量，进而用于文本到图像的生成。实验结果表明，该方法能有效生成高质量图像，并提升生成图像的真实性和质量。

Oct, 2024