LAW-Diffusion:基于布局扩散的复杂场景生成
本文提出了一种名为 LayoutDiffusion 的扩散模型,通过构建结构图像块来解决布局与图像的多模态融合的难点,并利用 Object-aware Cross Attention 实现相对精确的分区和位置敏感的空间信息控制,实现比现有方法更高的生成质量和更高的可控性。
Mar, 2023
本文提出了一种布局扩散生成模型,旨在构建元素分类、大小、位置和元素之间关系不同的图形场景中的图形布局。布局扩散生成模型通过解耦扩散算法实现了单个协调的布局生成任务。该方法可生成任意可用元素属性条件下的布局,实验证明其在功能和性能方面都优于现有的布局生成模型。
Mar, 2023
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景。此外,可以根据参考图像生成场景,从而实现对野外图像中的目标进行移动,该方法无需进行训练,与一般的文本 - 图像扩散模型兼容,并且响应时间少于一秒。
Apr, 2024
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
本文介绍了增强依赖于文本查询的扩散模型的空间可控性的创新解决方案,提出了两个关键创新:视觉引导和分层渲染扩散(LRDiff)框架。该方法通过视觉引导和分层渲染策略实现更高效和准确的图像综合,用于满足特定的空间和上下文需求,并通过实验证明其在定量和定性上优于现有技术。
Nov, 2023
提出了一种统一模型,用于处理广泛的布局生成任务,包括使用指定属性排列元素和完善粗糙布局设计。该模型基于连续扩散模型,并通过掩码输入引入条件。广泛的实验结果表明,该模型能够产生高质量的布局,并且优于现有的最先进基线。
Feb, 2024
Layout2Im 是一种基于布局的图像生成方法,将物体表示分解为指定和不确定部分,并使用卷积 LSTM 编码并解码整个布局,以生成准确且多样化的图像,提高了最佳 Inception 分数 24.66%至 28.57%。
Nov, 2018
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023