基于布局到图像合成的无需训练的复合场景生成
提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法,该方法在实验中具有最佳的风格和语义图片翻译效果,并且需要的时间最短。
Feb, 2023
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
通过提出一种语义可控的布局感知(Diffusion)模型(LAW-Diffusion),本研究实现了准确的复杂场景生成,通过引入空间依赖解析器来编码在对象之间的位置感知的语义一致性作为布局嵌入,并产生具有感知上和谐对象风格和语境关系的场景。
Aug, 2023
通过利用可用的语义布局,我们提出了一种增强文本-图像对应关系的新方法。具体而言,我们提出了一种高斯-分类扩散过程,同时生成图像和相应的布局对。我们的实验证明,通过训练模型为每个像素生成语义标签,我们可以引导文本-图像生成模型意识到不同图像区域的语义,从而达到比现有方法更高的文本-图像对应关系。
Aug, 2023
这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法,提出了一种基于区域和边界感知的交叉注意力引导方法,通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明,该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。
Oct, 2023
本文中,我们提出了一种名为LoCo的无需训练的布局到图像合成方法,能够通过引入局部化注意约束和填充令牌约束,对个体对象进行精确定位并防止合成对象的不良融合,并成功地集成到现有的文本到图像和布局到图像模型中,在多个基准测试中定性和定量地超越了既有的最先进的无需训练的布局到图像方法,展示了我们方法的优越性。
Nov, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
通过在传统的布局到图像扩散模型的训练过程中引入对抗监督,我们提出了一种布局到图像综合模型。该模型通过基于分割的鉴别器提供像素级对齐的显式反馈,以实现生成图像与输入布局之间的强对齐。通过引入多步展开策略,我们进一步鼓励模型在采样步骤中始终与输入布局保持一致。我们的实验结果表明,该模型生成的图像具有良好的布局保持性,并通过文本提示实现广泛的可编辑性。此外,我们展示了该模型在实际应用中的用途:通过使用文本控制合成目标分布样本,我们在语义分割模型的领域泛化方面取得了显著提升(增加了约12个mIoU分数)。
Jan, 2024