IFAdapter：实例特征控制的基于文本生成图像

Sep, 2024

IFAdapter：实例特征控制的基于文本生成图像

IFAdapter: Instance Feature Control for Grounded Text-to-Image Generation

Yinwei Wu, Xianpan Zhou, Bing Ma, Xuefeng Su, Kai Ma...

TL;DR本研究解决了文本生成图像模型在多个实例特征生成和定位上的不足，提出了实例特征生成（IFG）任务。通过引入实例特征适配器（IFAdapter），该方法利用额外的外观标记和实例语义图，显著提升了生成实例的定位准确性和特征真实感，并在实验证明其优于其他模型。

Abstract

While Text-to-Image (T2I) Diffusion Models excel at generating visually appealing images of individual instances, they struggle to accurately position and control the features generation of multiple instances. Th

发现论文，激发创造

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释/可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen将T2I生成拆分成三个步骤，使用LM控制前两个步骤，并提供更强的空间控制；VPEval是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

LayoutLLM-T2I: 从LLM中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

SSMG：基于空间-语义地图引导的自由式布局图像生成的扩散模型

该研究介绍了一种采用特征图作为引导的新型空间-语义地图引导扩散模型(SSMG)，通过丰富的空间和语义信息，实现了优于以往工作的生成质量和充足的空间和语义可控性。实验结果表明，SSMG在保真度、多样性和可控性等多个指标上取得了非常有前景的结果，达到了新的技术水平。

Aug, 2023

R&B：区域和边界感知的零样本基于文本生成图像

这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法，提出了一种基于区域和边界感知的交叉注意力引导方法，通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明，该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。

Oct, 2023

实例扩散：图像生成的实例级控制

Text-to-image diffusion models are enhanced with InstanceDiffusion, allowing precise instance-level control through UniFusion block and Multi-instance Sampler, resulting in significant improvements over state-of-the-art models.

Feb, 2024

MIGC: 文本到图像合成的多实例生成控制器

我们提出了一个多实例生成任务（MIG），在一幅图像中同时生成具有多样控制的多个实例。通过将MIG任务分解为若干子任务，并引入创新方法MIGC，利用实例增强的注意力机制精确阴影每个实例并聚合它们来生成多个整合属性和位置的实例。在COCO-MIG基准上进行了广泛实验，评估结果显示了我们模型在数量、位置、属性和交互方面的优异控制能力。

Feb, 2024

使用ControlNet和交叉注意控制实现基于局部描述的布局到图像生成

通过修改跨注意力矩阵，在保持图像质量的同时改进控制能力，本研究以 ControlNet 为例，研究了几种现有的跨注意力控制方法的局限性，并提出了一种新的跨注意力操纵方法，通过定位描述来实现对生成图像的精细控制。

Feb, 2024

构建场景：基于扩散的图像生成中的互动3D布局控制

本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足，提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略，我们的实验表明，该方法在生成复杂场景方面显著提高了物体生成成功率，是室内设计和复杂场景生成的有力工具。

Aug, 2024

重新思考丰富上下文的布局到图像生成的训练和评估

本研究解决了布局到图像生成中，现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块，以增强生成过程，并提出了评估开放词汇情景下生成性能的新指标。研究发现，这些指标与人类偏好高度一致，具有重要的应用潜力。

Sep, 2024

IFAdapter：实例特征控制用于定向文本生成图像

本研究解决了文本生成图像（T2I）扩散模型在生成多个实例时的定位和特征控制不足的问题。提出的实例特征生成（IFG）任务和实例特征适配器（IFAdapter）、通过引入外观标记和实例语义图，显著提高了生成实例的准确性和特征保真度。实验结果显示，IFAdapter在定量和定性评估中均优于其他模型，具有显著的应用潜力。

Sep, 2024