MIGC: 文本到图像合成的多实例生成控制器
本文提出了一种基于递归模型的图像生成方法,可以根据过去的指令以及当前的反馈生成背景,添加新对象,并对现有对象进行简单的变换,这是交互式生成的一个重要步骤。
Nov, 2018
本文介绍Control-GPT,它通过使用GPT-4生成的TikZ程序草图来引导扩散型文本到图像管道,从而提高其按照文本指令生成图像的能力,并在空间布置和物体定位方面创造了新的最高水平。
May, 2023
通过人体姿势图片的几何控制和实例级别的文本提示,FineControlNet实现了每个实例外观的精细控制,同时保持精确的姿势控制能力,相对于现有方法,FineControlNet在生成遵循用户提供的实例特定文本提示和姿势的图像方面表现出卓越性能。
Dec, 2023
Text-to-image diffusion models are enhanced with InstanceDiffusion, allowing precise instance-level control through UniFusion block and Multi-instance Sampler, resulting in significant improvements over state-of-the-art models.
Feb, 2024
通过采用分割和征服方法,我们改进了传统的扩散式文本到图像生成模型,使其在多个对象和复杂的空间关系下从文本生成图像,提高了可控性和一致性。
Mar, 2024
通过将文本渲染和布局到图像生成任务融合为一个任务,本文提出了一种布局可控的文本-对象综合 (LTOS) 任务,旨在根据预定义的对象布局和文本内容合成具有对象和视觉文本的图像。
Apr, 2024
我们介绍了多实例生成(Multi-Instance Generation,MIG)任务,着重于在单个图像内生成多个实例,每个实例都根据用户的要求准确地放置在预定义位置,并具有类别、颜色和形状等属性。MIG面临三个主要挑战:避免实例之间的属性泄漏,支持多样化的实例描述,并在迭代生成过程中保持一致性。为了解决属性泄漏问题,我们提出了多实例生成控制器(Multi-Instance Generation Controller,MIGC)。MIGC通过分而治之的策略生成多个实例,将多实例阴影拆分为具有单一属性的单实例任务,然后进行整合。为了提供更多类型的实例描述,我们开发了MIGC++。MIGC++允许通过文本和图像进行属性控制,并通过框和掩码进行位置控制。最后,我们介绍了一种称为“一致性MIG”算法来增强MIGC和MIGC++的迭代MIG能力。该算法在添加、删除或修改实例的过程中保证未修改区域的一致性,并在实例的属性改变时保持其身份。我们引入了COCO-MIG和Multimodal-MIG基准来评估这些方法。对这些基准进行了大量实验证明我们的方法在位置、属性和数量等方面明显优于现有技术,能够精确控制多个方面。
Jul, 2024
本研究解决了文本生成图像(T2I)扩散模型在生成多个实例时的定位和特征控制不足的问题。提出的实例特征生成(IFG)任务和实例特征适配器(IFAdapter)、通过引入外观标记和实例语义图,显著提高了生成实例的准确性和特征保真度。实验结果显示,IFAdapter在定量和定性评估中均优于其他模型,具有显著的应用潜力。
Sep, 2024
本研究解决了文本生成图像模型在多个实例特征生成和定位上的不足,提出了实例特征生成(IFG)任务。通过引入实例特征适配器(IFAdapter),该方法利用额外的外观标记和实例语义图,显著提升了生成实例的定位准确性和特征真实感,并在实验证明其优于其他模型。
Sep, 2024