InstructLayout: 基于语义图先验的指导式2D和3D布局合成
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
提出一种基于变分生成模型和场景图条件的端到端场景布局合成方法,并使用可微分渲染模块优化生成的布局。实验表明,该模型可以更精确和多样地进行条件场景合成,并允许从各种输入形式生成样本化场景。
Jul, 2020
LayoutBERT 提出了一种基于自监督掩蔽语言模型目标和双向多头自注意力的自动图像叠加技术,主要用于解决自动选择对象并在图像中正确放置的难题,并在 COCO、PublayNet 等数据集上取得了较好表现,同时还提供了一个包含580万个包括布局注释的图像数据集。
Apr, 2022
LayoutGPT 是一种利用 LLMS 生成样式表语言的方法,能够生成多个视觉域中的可信布局,包括三维室内场景;当与下游图像生成模型相结合时,比文本到图像模型系统表现更好,并可在正确性方面与人类用户进行比较,同时在 3D 室内场景合成方面也与监督方法实现相当的性能。
May, 2023
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
通过集成语义图形先验和布局解码器的创新生成框架InstructScene,改进了三维场景合成的可控性和保真度,并展示了零样本方式在各种下游任务中的多功能性。
Feb, 2024
提出了adaPtive LAyout-semantiC fusion modulE (PLACE)以及附加的Semantic Alignment (SA) loss,通过利用预训练模型来改善语义图像合成中的布局和语义问题,实现合成图像的真实细节和语义一致性。
Mar, 2024
近期,在指令追踪模型方面取得的进展使得用户与模型的交互更加用户友好和高效,扩大了它们的适用范围。本研究引入了一种新颖的多模态指令追踪框架,用于布局规划,在设计领域,非专业用户经常由于技能和资源有限而难以创建具有视觉吸引力的布局。我们提出了三个布局推理任务来训练模型理解和执行布局指令。在两个基准测试中的实验证明,我们的方法不仅简化了非专业人员的设计过程,而且在Crello上的mIoU高于few-shot GPT-4V模型12%。这一进展凸显了多模态指令追踪模型在自动化和简化设计过程方面的潜力,为视觉丰富文档上的各类设计任务提供了可行的解决方案。
Apr, 2024
本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足,提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略,我们的实验表明,该方法在生成复杂场景方面显著提高了物体生成成功率,是室内设计和复杂场景生成的有力工具。
Aug, 2024
本研究解决了布局到图像生成中,现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块,以增强生成过程,并提出了评估开放词汇情景下生成性能的新指标。研究发现,这些指标与人类偏好高度一致,具有重要的应用潜力。
Sep, 2024