GLIGEN：开放集合的文本到图像生成

Jan, 2023

GLIGEN：开放集合的文本到图像生成

GLIGEN: Open-Set Grounded Text-to-Image Generation

Yuheng Li, Haotian Liu, Qingyang Wu, Fangzhou Mu, Jianwei Yang...

TL;DRGLIGEN是一种基于预训练的文本到图像扩散模型，通过引入语境输入，扩展了现有的文本到图像扩散模型，通过一种门控机制将语境信息注入到新的可训练层中，从而实现了基于语境生成图像，其在COCO和LVIS上的零样本性能大大优于现有的有监督布局到图像基准线。

Abstract

Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede controllability. In this work, we propose →

发现论文，激发创造

LAFITE：面向文本图像生成的语言无关训练

本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法，采用图像特征生成文本特征，实现了对文本数据的无缝融合。实验结果表明，该方法在标准文本到图像生成任务中取得了最好的表现，并且优于大多数使用完整图像-文本对进行训练的现有模型。此外，我们的方法可以应用于微调预训练模型，从而节省文本到图像生成模型的培训时间和成本。

Nov, 2021

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法—— extsc{RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位

利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务，以图文扩散模型为基础设计了一个全面的区域评分方法，证明了其在零阶视觉定位上的强大性能。

Sep, 2023

R&B：区域和边界感知的零样本基于文本生成图像

这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法，提出了一种基于区域和边界感知的交叉注意力引导方法，通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明，该方法在多个基准测试上在质量和数量上均优于现有的零样本生成方法。

Oct, 2023

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

UNIMO-G：基于多模态条件扩散的统一图像生成

UNIMO-G 是一个简单的多模态条件扩散框架，能够对多模态提示进行操作，并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本-图像对，以及使用多模态提示进行指导微调，实现了高保真度的图像生成。

Jan, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024