InstructLayout: 基于语义图先验的指导式2D和3D布局合成

Jul, 2024

InstructLayout: 基于语义图先验的指导式2D和3D布局合成

InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior

Chenguo Lin, Yuchen Lin, Yadong Mu

TL;DRInstructLayout是一种集成了语义图先验和布局解码器的新型生成框架，用于改善2D和3D布局合成的可控性和保真度，通过同时学习布局外观和对象分布，实现了多个下游任务的零样本表现。

Abstract

Comprehending natural language instructions is a charming property for both 2D and 3d layout synthesis systems. Existing methods implicitly model object joint distributions and express object relations, hindering

发现论文，激发创造

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

场景布局的端到端优化

提出一种基于变分生成模型和场景图条件的端到端场景布局合成方法，并使用可微分渲染模块优化生成的布局。实验表明，该模型可以更精确和多样地进行条件场景合成，并允许从各种输入形式生成样本化场景。

Jul, 2020

LayoutBERT: 面向物体插入的掩码语言布局模型

LayoutBERT 提出了一种基于自监督掩蔽语言模型目标和双向多头自注意力的自动图像叠加技术，主要用于解决自动选择对象并在图像中正确放置的难题，并在 COCO、PublayNet 等数据集上取得了较好表现，同时还提供了一个包含580万个包括布局注释的图像数据集。

Apr, 2022

LayoutGPT：大型语言模型的构成性可视化规划与生成

LayoutGPT 是一种利用 LLMS 生成样式表语言的方法，能够生成多个视觉域中的可信布局，包括三维室内场景；当与下游图像生成模型相结合时，比文本到图像模型系统表现更好，并可在正确性方面与人类用户进行比较，同时在 3D 室内场景合成方面也与监督方法实现相当的性能。

May, 2023

LayoutLLM-T2I: 从LLM中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

InstructScene: 指令驱动的具有语义图先验的三维室内场景合成

通过集成语义图形先验和布局解码器的创新生成框架InstructScene，改进了三维场景合成的可控性和保真度，并展示了零样本方式在各种下游任务中的多功能性。

Feb, 2024

PLACE：自适应布局-语义融合的语义图像合成

提出了adaPtive LAyout-semantiC fusion modulE (PLACE)以及附加的Semantic Alignment (SA) loss，通过利用预训练模型来改善语义图像合成中的布局和语义问题，实现合成图像的真实细节和语义一致性。

Mar, 2024

视觉丰富文档的自动布局规划与指导模型

近期，在指令追踪模型方面取得的进展使得用户与模型的交互更加用户友好和高效，扩大了它们的适用范围。本研究引入了一种新颖的多模态指令追踪框架，用于布局规划，在设计领域，非专业用户经常由于技能和资源有限而难以创建具有视觉吸引力的布局。我们提出了三个布局推理任务来训练模型理解和执行布局指令。在两个基准测试中的实验证明，我们的方法不仅简化了非专业人员的设计过程，而且在Crello上的mIoU高于few-shot GPT-4V模型12%。这一进展凸显了多模态指令追踪模型在自动化和简化设计过程方面的潜力，为视觉丰富文档上的各类设计任务提供了可行的解决方案。

Apr, 2024

构建场景：基于扩散的图像生成中的互动3D布局控制

本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足，提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略，我们的实验表明，该方法在生成复杂场景方面显著提高了物体生成成功率，是室内设计和复杂场景生成的有力工具。

Aug, 2024

重新思考丰富上下文的布局到图像生成的训练和评估

本研究解决了布局到图像生成中，现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块，以增强生成过程，并提出了评估开放词汇情景下生成性能的新指标。研究发现，这些指标与人类偏好高度一致，具有重要的应用潜力。

Sep, 2024