掌握文本到图像扩散：多模态LLM的重新字幕、规划和生成

Jan, 2024

掌握文本到图像扩散：多模态LLM的重新字幕、规划和生成

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon...

TL;DR提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG，该框架利用多模态LLMs的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。

Abstract

diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with

发现论文，激发创造

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

无需训练的结构扩散引导的组合文本到图像合成

本文基于扩散模型的可控属性，将语言结构与扩散过程相结合，进一步提高了T2I模型的组合能力，特别是更准确的属性绑定和更好的图像组合，这得益于跨注意层的帮助和语言洞察力。

Dec, 2022

生成AI中的文本与图像扩散模型: 一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

DiffBlender: 可扩展和可组合的多模态文本到图像扩散模型

通过设计一种多模态文本到图像扩散模型（DiffBlender），可以同时引入多种不同类型的细节表达方式，如草图、盒子和风格嵌入等，不需要更改现有模型的参数，从而在单个模型中实现条件生成，并且通过量化和定性比较，将多模态生成的标准提高到了新的水平。

May, 2023

LLM蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

自校正的LLM控制扩散模型

使用Self-correcting LLM-controlled Diffusion (SLD)框架，该研究提出了一种迭代闭环过程，能够根据输入的提示生成图像、评估其与提示的对齐性，并纠正生成图像中的不准确性，从而提高文本到图像生成的正确性。该研究还发现，通过调整LLM的指令，SLD可以执行图像编辑任务，弥合文本到图像生成与图像编辑流程之间的差距。

Nov, 2023

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

LLM4GEN：利用语义表示的LLM用于文本到图像生成

LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块，有效提高了复杂和密集提示的语义理解能力，为text-to-image生成任务带来了显著改进，并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024