扩散模型中定制概念的非混淆生成
本文介绍了一种基于Custom Diffusion的文本到图像生成模型,只需少量优化参数即可表示新概念并实现快速调整,还可以通过约束优化共同训练多个概念或组合多个微调模型,并在新颖的环境中将多个概念无缝组合生成,此方法在记忆和计算效能方面都占有优势。
Dec, 2022
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
本文提出了一种名为MultiFusion的方法,利用预训练模型将多个语言和多模态输入整合到单一的图像生成模块中,从而大幅提高了效率。实验证明,MultiFusion可以将各个独立的组件整合起来,使图像生成模块能够利用来自各种语言和模态的输入。
May, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG,该框架利用多模态LLMs的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。
Jan, 2024
我们提出了一种新颖而通用的上下文扩散模型(ContextDiff),通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中,将上下文传播到这两个过程的所有时间步,从而促进跨模态条件建模,在文本到图像生成和文本到视频编辑的两个挑战性任务中,我们的ContextDiff实现了新的最先进性能,通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。
Feb, 2024
该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法——Concept Weaver。该方法将过程分为两个步骤:创建与输入提示语义对齐的模板图像,然后使用概念融合策略个性化该模板。研究结果表明,与替代方法相比,我们的方法能够生成具有较高身份保真度的多个定制概念。此外,该方法能够无缝处理多个概念,并且在紧密遵循输入提示的语义含义时不会混合不同主题的外观。
Apr, 2024
MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.
Apr, 2024
LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块,有效提高了复杂和密集提示的语义理解能力,为text-to-image生成任务带来了显著改进,并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。
Jun, 2024
本研究解决了从单一图像中分解视觉概念的复杂问题。我们提出了CusConcept这一新方法,通过两阶段框架提取定制化视觉概念嵌入向量,进而用于文本到图像的生成。实验结果表明,该方法能有效生成高质量图像,并提升生成图像的真实性和质量。
Oct, 2024