快速个性化的文本到图像合成与注意力注入
本文介绍了一种基于Custom Diffusion的文本到图像生成模型,只需少量优化参数即可表示新概念并实现快速调整,还可以通过约束优化共同训练多个概念或组合多个微调模型,并在新颖的环境中将多个概念无缝组合生成,此方法在记忆和计算效能方面都占有优势。
Dec, 2022
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
该研究提出了一种名为Custom-Edit的文本导向图像编辑方法,使用少量参考图像进行模型自定义,可以显著提高引用相似性同时保持源相似性,适用于各种数据集。
May, 2023
我们提出了一种新的开放域个性化图像生成模型Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用LAION-Aesthetics数据集,构建了一个包含7600万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。
Jul, 2023
通过CatVersion方法,在扩散模型的文本编码器的特征密集空间上连接嵌入,通过学习个性化概念与其基准类之间的差距来最大限度地保留先前知识,从而实现文本到图像的个性化转换,并利用改进的CLIP图像对齐得分来量化结果,展现出更忠实和更强大的编辑效果。
Nov, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的TTI模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
基於個性化文本到圖像模型,利用強化學習方法設計了一種新穎的框架,結合了不同目標及差分或非差分的目的函數,在生成圖像時提高了質量並保持文本對齊。
Jul, 2024
本研究针对现有定制扩散模型(CDMs)在个性化概念固定和遗忘问题上的不足,提出了一种新颖的概念增量文本到图像扩散模型(CIDM)。通过引入概念巩固损失和弹性权重聚合模块,该模型有效解决了旧概念遗忘和新概念定制任务学习的问题,实验证明CIDM在性能上超越了现有模型。
Oct, 2024