ComFusion: 多个特定场景中的个性化主题生成单图像

Feb, 2024

ComFusion: 多个特定场景中的个性化主题生成单图像

ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image

Yan Hong, Jianfu Zhang

TL;DR最近在个性化文本到图像（T2I）扩散模型方面的进展表明，使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而，这些模型在维护高视觉保真度方面经常遇到困难，特别是在根据文本输入进行场景操作时。为了解决这个问题，我们引入了 ComFusion，这是一种新颖的方法，利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合，有效地将视觉主题实例与文本特定场景融合，从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法，利用预训练模型的组合主题和场景特定知识，增强了生成的保真度。此外，ComFusion 使用粗糙生成的图像，确保它们与实例图像和场景文本有效对齐。因此，ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估，证明了 ComFusion 在定性和定量上的优越性。

Abstract

Recent advancements in personalizing text-to-image (T2I) diffusion models have shown the capability to generate images based on personalized visual concepts using a limited number of user-provided examples. Howev

personalizing text-to-image diffusion models comfusion visual fidelity scene-specific knowledge

发现论文，激发创造

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

Text2Scene: 从文本描述生成组合场景

本文提出了 Text2Scene 模型，该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同，Text2Scene 不使用生成对抗网络（GANs），而是通过依次生成对象和它们的属性来学习生成场景，从而实现生成各种形式的场景表示，包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作，而且其结果可以被解释。

Sep, 2018

TextFusion: 揭秘文本语义在可控图像融合中的力量

利用高级语义，通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制，并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态，提出了一种以文本为导向的融合方法，并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法（TextFusion）在传统的基于外观的融合方法上始终表现优异。

Dec, 2023

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

从一张图像中提取多个概念

本文提出了一种文本场景分解任务，并介绍了一种基于掩模增强的输入方法和一个新颖的两阶段自定义过程，用于针对生成图像中的特定概念进行微调，并使用多种自动度量标准和用户研究，验证了该方法的有效性。

May, 2023

概念编织者：在文本与图像模型中实现多概念融合

该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法 ——Concept Weaver。该方法将过程分为两个步骤：创建与输入提示语义对齐的模板图像，然后使用概念融合策略个性化该模板。研究结果表明，与替代方法相比，我们的方法能够生成具有较高身份保真度的多个定制概念。此外，该方法能够无缝处理多个概念，并且在紧密遵循输入提示的语义含义时不会混合不同主题的外观。

Apr, 2024

MaxFusion: 文本 - 图像扩散模型中的即插即用多模态生成

本研究提出了一种名为 MaxFusion 的新策略，通过合并多个模型的对齐特征，为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。

Apr, 2024

FastComposer：无需调参的基于局部注意力的多主体图像生成

FastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节，从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题，并且相对于基于微调的方法获得了数百到数千倍的加速。

May, 2023

文本定位：为主题驱动的文本到图像生成分解多概念图像

利用主题驱动的文本到图像扩散模型，用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而，现有的主题驱动模型主要依赖于单一概念的输入图像，在处理多概念输入图像时面临着目标概念的指定困难。为此，我们引入了一种文本本地化的文本到图像模型（Texual Localization）来处理多概念输入图像。在微调过程中，我们的方法采用了一种新颖的交叉注意力引导方法，分解多个概念，在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明，在多概念输入图像上，我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比，我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04％，8.13％，多概念生成的 CLIP-T 得分相对提高 2.22％，5.85％。值得注意的是，我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射，这是现有模型所没有的能力。

Feb, 2024

ComFusion: 多个特定场景中的个性化主题生成 单图像

ComFusion: 多个特定场景中的个性化主题生成单图像