FastComposer：无需调参的基于局部注意力的多主体图像生成

May, 2023

FastComposer：无需调参的基于局部注意力的多主体图像生成

FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention

Guangxuan Xiao, Tianwei Yin, William T. Freeman, Frédo Durand, Song Han

TL;DRFastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节，从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题，并且相对于基于微调的方法获得了数百到数千倍的加速。

Abstract

diffusion models excel at text-to-image generation, especially in subject-driven generation for personalized images. However, existing met

text-to-image generation diffusion models personalized images multi-subject generation cross-attention localization supervision

发现论文，激发创造

PrimeComposer：基于注意力引导的图像合成的快速逐步组合扩散

本论文提出了 PrimeComposer，一种快速训练无关的扩散器，通过在不同噪声水平上精心设计的注意力引导来组合图像。该方法主要通过使用我们的关联扩散器，在每个步骤上利用其自注意层来实现。我们的方法在前景生成、合成质量和推理效率方面都表现出卓越的优势。

Mar, 2024

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

MM-Diff: 多模态条件融合的高保真图像个性化

为了提高主题准确性，我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架，能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入，而通过设计精良的多模态交叉注意机制，CLS 嵌入一方面用于增强文本嵌入，另一方面与 patch 嵌入一起用于生成少量细节丰富的主题嵌入，并且在训练过程中引入了交叉注意图约束，确保推理过程中的灵活多主题图像采样。大量实验证明了 MM-Diff 相对于其他主要方法的优越性能。

Mar, 2024

做回自己：多主体文本到图像生成的有限关注

我们研究了文本到图像扩散模型中的语义泄漏问题，并提出了一种名为有界注意力的方法，通过限定信息流的路径来解决泄漏问题，从而提高多主题生成的质量。

Mar, 2024

主题扩散：无需测试时间微调的开放领域个性化文本到图像生成

我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion，它不需要测试时微调，只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集，构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架，通过融合文本和图像语义，并结合粗粒度位置和细粒度参考图像控制，以最大化主体的准确性和一般化能力。此外，我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明，我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。

Jul, 2023

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

DreamTuner：主题驱动生成仅需一张图片

DreamTurner 是一种新方法，通过将粗略主题特征逐渐注入到细节中，有效地实现主题驱动的图像生成，其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。

Dec, 2023

文本定位：为主题驱动的文本到图像生成分解多概念图像

利用主题驱动的文本到图像扩散模型，用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而，现有的主题驱动模型主要依赖于单一概念的输入图像，在处理多概念输入图像时面临着目标概念的指定困难。为此，我们引入了一种文本本地化的文本到图像模型（Texual Localization）来处理多概念输入图像。在微调过程中，我们的方法采用了一种新颖的交叉注意力引导方法，分解多个概念，在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明，在多概念输入图像上，我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比，我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04％，8.13％，多概念生成的 CLIP-T 得分相对提高 2.22％，5.85％。值得注意的是，我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射，这是现有模型所没有的能力。

Feb, 2024

ObjectComposer: 一致生成多个对象而无需进行微调

现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难，本论文介绍了一种名为 ObjectComposer 的方法，通过不修改底层模型的权重，训练了一种无需 fine-tuning 的方法，可一次生成多个特定对象的组合。

Oct, 2023