LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
通过采用分割和征服方法,我们改进了传统的扩散式文本到图像生成模型,使其在多个对象和复杂的空间关系下从文本生成图像,提高了可控性和一致性。
Mar, 2024
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
通过利用可用的语义布局,我们提出了一种增强文本 - 图像对应关系的新方法。具体而言,我们提出了一种高斯 - 分类扩散过程,同时生成图像和相应的布局对。我们的实验证明,通过训练模型为每个像素生成语义标签,我们可以引导文本 - 图像生成模型意识到不同图像区域的语义,从而达到比现有方法更高的文本 - 图像对应关系。
Aug, 2023
通过在传统的布局到图像扩散模型的训练过程中引入对抗监督,我们提出了一种布局到图像综合模型。该模型通过基于分割的鉴别器提供像素级对齐的显式反馈,以实现生成图像与输入布局之间的强对齐。通过引入多步展开策略,我们进一步鼓励模型在采样步骤中始终与输入布局保持一致。我们的实验结果表明,该模型生成的图像具有良好的布局保持性,并通过文本提示实现广泛的可编辑性。此外,我们展示了该模型在实际应用中的用途:通过使用文本控制合成目标分布样本,我们在语义分割模型的领域泛化方面取得了显著提升(增加了约 12 个 mIoU 分数)。
Jan, 2024
Layout2Im 是一种基于布局的图像生成方法,将物体表示分解为指定和不确定部分,并使用卷积 LSTM 编码并解码整个布局,以生成准确且多样化的图像,提高了最佳 Inception 分数 24.66%至 28.57%。
Nov, 2018
通过提示文本控制生成的图像在空间布局方面存在问题,因此我们提出了一种名为布局引导技术的新方法,该方法可以改进模型的交叉注意层,以实现所需的重建方向,并成功进行了定量和定性的实验验证与扩展。
Apr, 2023
通过提出一种语义可控的布局感知 (Diffusion) 模型 (LAW-Diffusion),本研究实现了准确的复杂场景生成,通过引入空间依赖解析器来编码在对象之间的位置感知的语义一致性作为布局嵌入,并产生具有感知上和谐对象风格和语境关系的场景。
Aug, 2023