MIGC: 文本到图像合成的多实例生成控制器

Feb, 2024

MIGC: 文本到图像合成的多实例生成控制器

MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

Dewei Zhou, You Li, Fan Ma, Zongxin Yang, Yi Yang

TL;DR我们提出了一个多实例生成任务（MIG），在一幅图像中同时生成具有多样控制的多个实例。通过将MIG任务分解为若干子任务，并引入创新方法MIGC，利用实例增强的注意力机制精确阴影每个实例并聚合它们来生成多个整合属性和位置的实例。在COCO-MIG基准上进行了广泛实验，评估结果显示了我们模型在数量、位置、属性和交互方面的优异控制能力。

Abstract

We present a multi-instance generation (MIG) task, simultaneously generating multiple instances with diverse controls in one image. Given a set of predefined coordinates and their corresponding descriptions, the task is to ensure that generated instances are accurately at the designate

发现论文，激发创造

基于连续语言指令的图像生成和修改

本文提出了一种基于递归模型的图像生成方法，可以根据过去的指令以及当前的反馈生成背景，添加新对象，并对现有对象进行简单的变换，这是交互式生成的一个重要步骤。

Nov, 2018

无需训练的位置感知文本到图像合成

本文提出了一种新的交互式图像生成方案，以定位细粒度为目标，评价了生成模型控制位置的能力，并在图像质量和控制能力方面均表现出超过最先进方法的效果。

Apr, 2023

GPT-4可控文本到图像生成

本文介绍Control-GPT，它通过使用GPT-4生成的TikZ程序草图来引导扩散型文本到图像管道，从而提高其按照文本指令生成图像的能力，并在空间布置和物体定位方面创造了新的最高水平。

May, 2023

FineControlNet：利用空间对齐文本控制注入进行图像生成的精细级文本控制

通过人体姿势图片的几何控制和实例级别的文本提示，FineControlNet实现了每个实例外观的精细控制，同时保持精确的姿势控制能力，相对于现有方法，FineControlNet在生成遵循用户提供的实例特定文本提示和姿势的图像方面表现出卓越性能。

Dec, 2023

实例扩散：图像生成的实例级控制

Text-to-image diffusion models are enhanced with InstanceDiffusion, allowing precise instance-level control through UniFusion block and Multi-instance Sampler, resulting in significant improvements over state-of-the-art models.

Feb, 2024

DivCon: 渐进式文本到图像生成的分割与征服

通过采用分割和征服方法，我们改进了传统的扩散式文本到图像生成模型，使其在多个对象和复杂的空间关系下从文本生成图像，提高了可控性和一致性。

Mar, 2024

LTOS: 布局可控的文本对象合成通过自适应交叉关注融合

通过将文本渲染和布局到图像生成任务融合为一个任务，本文提出了一种布局可控的文本-对象综合 (LTOS) 任务，旨在根据预定义的对象布局和文本内容合成具有对象和视觉文本的图像。

Apr, 2024

MIGC++：图像合成高级多实例生成控制器

我们介绍了多实例生成（Multi-Instance Generation，MIG）任务，着重于在单个图像内生成多个实例，每个实例都根据用户的要求准确地放置在预定义位置，并具有类别、颜色和形状等属性。MIG面临三个主要挑战：避免实例之间的属性泄漏，支持多样化的实例描述，并在迭代生成过程中保持一致性。为了解决属性泄漏问题，我们提出了多实例生成控制器（Multi-Instance Generation Controller，MIGC）。MIGC通过分而治之的策略生成多个实例，将多实例阴影拆分为具有单一属性的单实例任务，然后进行整合。为了提供更多类型的实例描述，我们开发了MIGC++。MIGC++允许通过文本和图像进行属性控制，并通过框和掩码进行位置控制。最后，我们介绍了一种称为“一致性MIG”算法来增强MIGC和MIGC++的迭代MIG能力。该算法在添加、删除或修改实例的过程中保证未修改区域的一致性，并在实例的属性改变时保持其身份。我们引入了COCO-MIG和Multimodal-MIG基准来评估这些方法。对这些基准进行了大量实验证明我们的方法在位置、属性和数量等方面明显优于现有技术，能够精确控制多个方面。

Jul, 2024

IFAdapter：实例特征控制用于定向文本生成图像

本研究解决了文本生成图像（T2I）扩散模型在生成多个实例时的定位和特征控制不足的问题。提出的实例特征生成（IFG）任务和实例特征适配器（IFAdapter）、通过引入外观标记和实例语义图，显著提高了生成实例的准确性和特征保真度。实验结果显示，IFAdapter在定量和定性评估中均优于其他模型，具有显著的应用潜力。

Sep, 2024

IFAdapter：实例特征控制的基于文本生成图像

本研究解决了文本生成图像模型在多个实例特征生成和定位上的不足，提出了实例特征生成（IFG）任务。通过引入实例特征适配器（IFAdapter），该方法利用额外的外观标记和实例语义图，显著提升了生成实例的定位准确性和特征真实感，并在实验证明其优于其他模型。

Sep, 2024