LAW-Diffusion：基于布局扩散的复杂场景生成

Aug, 2023

LAW-Diffusion：基于布局扩散的复杂场景生成

LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts

Binbin Yang, Yi Luo, Ziliang Chen, Guangrun Wang, Xiaodan Liang...

TL;DR通过提出一种语义可控的布局感知 (Diffusion) 模型 (LAW-Diffusion)，本研究实现了准确的复杂场景生成，通过引入空间依赖解析器来编码在对象之间的位置感知的语义一致性作为布局嵌入，并产生具有感知上和谐对象风格和语境关系的场景。

Abstract

Thanks to the rapid development of diffusion models, unprecedented progress has been witnessed in image synthesis. Prior works mostly rely on pre-trained linguistic models, but a text is often too abstract to properly specify all the →

image synthesis layout-aware diffusion model scene generation spatial properties object relations

发现论文，激发创造

LayoutDiffusion：可控的布局到图像生成扩散模型

本文提出了一种名为 LayoutDiffusion 的扩散模型，通过构建结构图像块来解决布局与图像的多模态融合的难点，并利用 Object-aware Cross Attention 实现相对精确的分区和位置敏感的空间信息控制，实现比现有方法更高的生成质量和更高的可控性。

Mar, 2023

基于分离扩散模型的统一布局生成

本文提出了一种布局扩散生成模型，旨在构建元素分类、大小、位置和元素之间关系不同的图形场景中的图形布局。布局扩散生成模型通过解耦扩散算法实现了单个协调的布局生成任务。该方法可生成任意可用元素属性条件下的布局，实验证明其在功能和性能方面都优于现有的布局生成模型。

Mar, 2023

层叠场景扩散移动任何物体

通过对不同空间布局的场景渲染进行联合去噪，SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离，从而生成支持移动、调整大小、克隆以及逐层外观编辑（包括目标重塑和替换）等广泛空间编辑操作的场景。此外，可以根据参考图像生成场景，从而实现对野外图像中的目标进行移动，该方法无需进行训练，与一般的文本 - 图像扩散模型兼容，并且响应时间少于一秒。

Apr, 2024

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

零样本引导图像合成的分层渲染扩散模型

本文介绍了增强依赖于文本查询的扩散模型的空间可控性的创新解决方案，提出了两个关键创新：视觉引导和分层渲染扩散（LRDiff）框架。该方法通过视觉引导和分层渲染策略实现更高效和准确的图像综合，用于满足特定的空间和上下文需求，并通过实验证明其在定量和定性上优于现有技术。

Nov, 2023

通过具有美学约束的扩散模型实现对齐布局生成

提出了一种统一模型，用于处理广泛的布局生成任务，包括使用指定属性排列元素和完善粗糙布局设计。该模型基于连续扩散模型，并通过掩码输入引入条件。广泛的实验结果表明，该模型能够产生高质量的布局，并且优于现有的最先进基线。

Feb, 2024

基于版面的图像生成

Layout2Im 是一种基于布局的图像生成方法，将物体表示分解为指定和不确定部分，并使用卷积 LSTM 编码并解码整个布局，以生成准确且多样化的图像，提高了最佳 Inception 分数 24.66％至 28.57％。

Nov, 2018

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023