本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
Layout2Im是一种基于布局的图像生成方法,将物体表示分解为指定和不确定部分,并使用卷积LSTM编码并解码整个布局,以生成准确且多样化的图像,提高了最佳Inception分数24.66%至28.57%。
Nov, 2018
本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
LayoutGPT 是一种利用 LLMS 生成样式表语言的方法,能够生成多个视觉域中的可信布局,包括三维室内场景;当与下游图像生成模型相结合时,比文本到图像模型系统表现更好,并可在正确性方面与人类用户进行比较,同时在 3D 室内场景合成方面也与监督方法实现相当的性能。
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
该研究介绍了一种采用特征图作为引导的新型空间-语义地图引导扩散模型(SSMG),通过丰富的空间和语义信息,实现了优于以往工作的生成质量和充足的空间和语义可控性。实验结果表明,SSMG在保真度、多样性和可控性等多个指标上取得了非常有前景的结果,达到了新的技术水平。
这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法,提出了一种基于区域和边界感知的交叉注意力引导方法,通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明,该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。
Oct, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
通过改进的自动分布条件并利用布局信息指导扩散过程,该研究提出了一种新颖的无需训练的方法,能够生成具有增强保真度和复杂性的内容丰富的图像。
Jul, 2024