文本到图像扩散的多概念自定义
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
这篇论文介绍了创造性文本到图像生成的任务,并使用未经研究的扩散先验模型来解决此问题,同时通过一个问题回答模型来逐渐发现越来越独特的创作,最后展示了先验约束不仅作为强大的混合机制,还能引入更多的灵活性。
Aug, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的TTI模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
该研究介绍了一种基于Gen4Gen的半自动数据集创建流程,并提出了一种综合指标以更好地量化多概念个性化文本到图像扩散方法的性能。研究通过改善数据质量和提示策略,将实现多概念个性化图像生成质量的显著提高,而无需对模型架构或训练算法进行任何修改。
Feb, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法——Concept Weaver。该方法将过程分为两个步骤:创建与输入提示语义对齐的模板图像,然后使用概念融合策略个性化该模板。研究结果表明,与替代方法相比,我们的方法能够生成具有较高身份保真度的多个定制概念。此外,该方法能够无缝处理多个概念,并且在紧密遵循输入提示的语义含义时不会混合不同主题的外观。
Apr, 2024
MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.
Apr, 2024
通过文本引导的扩散模型解决了组合概念生成中的常见挑战——概念之间的视觉混淆,并针对定制概念的生成提出了一种简单有效的解决方案CLIF:对比图像-语言微调,实验证明其在防止多定制概念生成中的混淆方面非常有效。
May, 2024
本研究针对现有定制扩散模型(CDMs)在个性化概念固定和遗忘问题上的不足,提出了一种新颖的概念增量文本到图像扩散模型(CIDM)。通过引入概念巩固损失和弹性权重聚合模块,该模型有效解决了旧概念遗忘和新概念定制任务学习的问题,实验证明CIDM在性能上超越了现有模型。
Oct, 2024