基于版面的图像生成

CVPRNov, 2018

Image Generation from Layout

Bo Zhao, Lili Meng, Weidong Yin, Leonid Sigal

TL;DRLayout2Im 是一种基于布局的图像生成方法，将物体表示分解为指定和不确定部分，并使用卷积 LSTM 编码并解码整个布局，以生成准确且多样化的图像，提高了最佳 Inception 分数 24.66％至 28.57％。

Abstract

Despite significant recent progress on generative models, controlled generation of images depicting multiple and complex object layouts is still a difficult problem. Among the core challenges are the diversity of appearance a given object may possess and, as a result, exponential set o

layout-based image generation object layouts disentangled representation convolutional lstm inception score

发现论文，激发创造

增强的物体外观感知布局生成图像

该研究论文提出了一种新的布局到图像生成模型，通过引入上下文感知特征变换模块和 Gram 矩阵，成功地解决了目前现有模型中存在的局限性，实现了 COCO-Thing-Stuff 和 Visual Genome 数据集上的最佳性能。

Mar, 2021

基于布局的属性引导图像生成

该论文提出了一种基于属性控制的图像生成方法，该方法可以在实例级别实现对象外观的控制，并利用多种损失函数协作工作来提高生成图像的准确性、一致性和多样性，在 Visual Genome 数据集上的实验证明了该模型的能力，并证实了从布局任务中解耦对象 - 属性表示的可行性。

Aug, 2020

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

学习可控图像合成的布局和风格可重构 GANs

该论文提出了一种新的范例 (layout-to-mask-to-image) 来实现从给定布局生成物体掩膜的任务，给出了一种通过实例感知和布局感知归一化来实现物体掩膜水平的风格控制，使用生成对抗网络 (GANs) 在两个控制水平上进行风格控制的方法，并在 COCO-Stuff 数据集和 Visual Genome 数据集上获得了最新成果。

Mar, 2020

可重构布局和风格的图像合成

本文介绍一种基于布局和风格的生成对抗网络 [LostGANs] 的架构，能够从可重构的布局和风格中生成图像，实现了多物体样式生成，并在 COCO-Stuff 数据集和 Visual Genome 数据集上实现了最先进的性能。

Aug, 2019

OBJ2TEXT: 从物体布局生成视觉描述语言

OBJ2TEXT 是基于 LSTM 网络的序列到序列模型，可用于抽象场景的描述生成，加入状态 - 最先进的物体探测器后可将图像的描述评分从 0.863 提升到 0.950（CIDEr score），并能有效表示物体的空间关系。

Jul, 2017

具有上下文对象布局细化的场景图像生成

提出了一种新的方法，通过逐步生成整个布局描述来改善物体间的依赖关系，从而生成高质量的中间布局和最终图像，提高了布局覆盖率近 20 个百分点，减少了物体之间的重叠到可忽略的程度。

Sep, 2020

自监督摄影图像布局表示学习

研究通过定义基本布局元素，将图像布局映射到异质图结构，引入自我监督学习和自定义损失函数，建立在这个基础上发展了一个能够高效地压缩图像布局的自动编码网络架构，并介绍了一个全面评估布局表示学习方法的基准数据集，实验证明该方法在摄影图像布局表示学习领域具有卓越的性能。

Mar, 2024

DivCon: 渐进式文本到图像生成的分割与征服

通过采用分割和征服方法，我们改进了传统的扩散式文本到图像生成模型，使其在多个对象和复杂的空间关系下从文本生成图像，提高了可控性和一致性。

Mar, 2024