基于交叉注意力引导的无需训练的布局控制

Apr, 2023

基于交叉注意力引导的无需训练的布局控制

Training-Free Layout Control with Cross-Attention Guidance

Minghao Chen, Iro Laina, Andrea Vedaldi

TL;DR通过提示文本控制生成的图像在空间布局方面存在问题，因此我们提出了一种名为布局引导技术的新方法，该方法可以改进模型的交叉注意层，以实现所需的重建方向，并成功进行了定量和定性的实验验证与扩展。

Abstract

Recent diffusion-based generators can produce high-quality images based only on textual prompts. However, they do not correctly interpret instructions that specify the spatial layout of the composition. We propose a simple approach that can achieve robust →

diffusion-based generators layout control cross-attention layers forward and backward guidance editing layout

发现论文，激发创造

使用 ControlNet 和交叉注意控制实现基于局部描述的布局到图像生成

通过修改跨注意力矩阵，在保持图像质量的同时改进控制能力，本研究以 ControlNet 为例，研究了几种现有的跨注意力控制方法的局限性，并提出了一种新的跨注意力操纵方法，通过定位描述来实现对生成图像的精细控制。

Feb, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023

跨注意力控制实现免费本地化文本图像生成

本研究发现，在推论期间通过简单控制交叉注意力图就可以实现本地化生成，同时提高了文本到图像生成模型的组成能力。

Jun, 2023

高分辨率稀疏注意力下的语义布局操作

该研究提出了一种高分辨率稀疏注意力模块和一个生成器架构，可以在语义标签映射的基础上，有效地实现将输入图像的视觉细节转移至新布局。实验证明，该方法在图像修补和布局操作方面的性能得到了大幅提高。

Dec, 2020

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

ReGround: 提升文本和空间定位的无成本方法

通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Mar, 2024

多目标生成中获得优秀布局

基于大规模文本到图像模型，我们提出了一种新颖的方法，通过引入交叉注意力图，来解决多主题生成的挑战并提高图像生成的质量和多样性。我们的方法通过重新排列布局网格和引入新的损失项，实现了对生成图像中主题的更清晰定义和避免主题重叠。与其他方法相比，我们的方法在各种文本提示下更准确地捕捉了所需的概念。

May, 2024

面向视觉文本呈现设计的组合感知图形布局生成对抗网络

本文提出了一种基于图像元素的深度生成模型 CGL-GAN，并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距，进而生成符合美感直觉的高质量图形布局。

Apr, 2022