构建场景：基于扩散的图像生成中的互动3D布局控制

Aug, 2024

构建场景：基于扩散的图像生成中的互动3D布局控制

Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Abdelrahman Eldesokey, Peter Wonka

TL;DR本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足，提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略，我们的实验表明，该方法在生成复杂场景方面显著提高了物体生成成功率，是室内设计和复杂场景生成的有力工具。

Abstract

We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D Layout Control. Layout control has been widely studied to alleviate the shortcomings of T2I →

发现论文，激发创造

LayoutDiffusion：可控的布局到图像生成扩散模型

本文提出了一种名为LayoutDiffusion的扩散模型，通过构建结构图像块来解决布局与图像的多模态融合的难点，并利用Object-aware Cross Attention实现相对精确的分区和位置敏感的空间信息控制，实现比现有方法更高的生成质量和更高的可控性。

Mar, 2023

LayoutLLM-T2I: 从LLM中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

LAW-Diffusion：基于布局扩散的复杂场景生成

通过提出一种语义可控的布局感知(Diffusion)模型(LAW-Diffusion)，本研究实现了准确的复杂场景生成，通过引入空间依赖解析器来编码在对象之间的位置感知的语义一致性作为布局嵌入，并产生具有感知上和谐对象风格和语境关系的场景。

Aug, 2023

SSMG：基于空间-语义地图引导的自由式布局图像生成的扩散模型

该研究介绍了一种采用特征图作为引导的新型空间-语义地图引导扩散模型(SSMG)，通过丰富的空间和语义信息，实现了优于以往工作的生成质量和充足的空间和语义可控性。实验结果表明，SSMG在保真度、多样性和可控性等多个指标上取得了非常有前景的结果，达到了新的技术水平。

Aug, 2023

R&B：区域和边界感知的零样本基于文本生成图像

这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法，提出了一种基于区域和边界感知的交叉注意力引导方法，通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明，该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。

Oct, 2023

Control3D：面向可控的文本到3D生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即Control3D，以增强用户的可控性。具体而言，我们通过改进的2D条件扩散模型（ControlNet）来引导作为NeRF参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

通过布局学习实现解耦的3D场景生成

我们介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。我们的关键观点是，通过重新排列具有空间先验的三维场景的部分，可以发现物体的存在，并且这些重排后的场景仍然是原场景的有效配置。具体而言，我们的方法从头开始联合优化多个NeRFs，每个NeRF代表一个物体，以及一组将这些物体合成为场景的布局。然后，我们鼓励这些合成的场景在图像生成器中符合分布。我们展示了尽管简单，我们的方法成功地生成了分解为个体物体的三维场景，从而在文本到三维内容创建中实现了新的功能。请参阅我们的项目页面，查看更多结果和交互式演示。

Feb, 2024

DivCon: 渐进式文本到图像生成的分割与征服

通过采用分割和征服方法，我们改进了传统的扩散式文本到图像生成模型，使其在多个对象和复杂的空间关系下从文本生成图像，提高了可控性和一致性。

Mar, 2024

基于布局到图像合成的无需训练的复合场景生成

通过改进的自动分布条件并利用布局信息指导扩散过程，该研究提出了一种新颖的无需训练的方法，能够生成具有增强保真度和复杂性的内容丰富的图像。

Jul, 2024