做回自己：多主体文本到图像生成的有限关注

Mar, 2024

做回自己：多主体文本到图像生成的有限关注

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or

TL;DR我们研究了文本到图像扩散模型中的语义泄漏问题，并提出了一种名为有界注意力的方法，通过限定信息流的路径来解决泄漏问题，从而提高多主题生成的质量。

Abstract

text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous →

text-to-image diffusion models layout-to-image extensions semantic leakage bounded attention multi-subject generation

发现论文，激发创造

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

多目标生成中获得优秀布局

基于大规模文本到图像模型，我们提出了一种新颖的方法，通过引入交叉注意力图，来解决多主题生成的挑战并提高图像生成的质量和多样性。我们的方法通过重新排列布局网格和引入新的损失项，实现了对生成图像中主题的更清晰定义和避免主题重叠。与其他方法相比，我们的方法在各种文本提示下更准确地捕捉了所需的概念。

May, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

MS-Diffusion：基于布局引导的多主体零样本图像个性化

我们的研究引入了 MS-Diffusion 框架，用于基于布局指导的零样本图像个性化处理多主题，融合了引用令牌和特征重采样以保持细节的准确性，并通过跨主题注意力来实现各自主题条件对特定区域的影响，通过全面的定量和定性实验，证明该方法在图像和文本的准确性方面优于现有模型，推动个性化的文本到图像生成的发展。

Jun, 2024

通过注意力调节改进文本到图像生成对齐

通过注意力机制的调节，我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制，旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明，我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。

Apr, 2024

提升文本到图像合成中的语义保真度：扩散模型中的注意力调节

我们提出了一种注意力调节方法，通过实时优化来对齐注意力图与输入文本提示，从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较，结果表明我们的方法在减少计算开销的同时，始终优于其他基准方法，生成的图像更加忠实地反映了所需的概念。

Mar, 2024

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

注意力调制下的密集文本到图像生成

通过 DenseDiffusion 方法，我们能够在不需额外微调或数据集的情况下，有效改善给定密集描述的图像生成性能，并且达到与专门训练有场景布局条件的模型相似的视觉效果。

Aug, 2023