DiffusionGPT: 基于LLM的文本到图像生成系统

Jan, 2024

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT: LLM-Driven Text-to-Image Generation System

Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li...

TL;DRDiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Abstract

diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-t

发现论文，激发创造

DiffusionDB：一个用于文本到图像生成模型的大规模提示库数据集

通过 DiffusionDB 这个大规模的文本引导数据集，我们可以更好地理解中自然语言提示与生成模型之间的相互作用，检测深度伪造，并设计帮助用户更轻松使用这些模型的人工智能交互工具。

Oct, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

生成AI中的文本与图像扩散模型: 一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为Prompt-Free Diffusion的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器(SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的T2I模型相媲美。

May, 2023

PEA-Diffusion: 非英文文本到图像生成中的参数高效适配器与知识蒸馏

基于知识蒸馏的轻量级参数效率适配器 (PEA) 的训练方法可用于实现非英语文本到图像的生成，并在跨语言文本到图像生成的下游任务中获得重要结果。

Nov, 2023

掌握文本到图像扩散：多模态LLM的重新字幕、规划和生成

提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG，该框架利用多模态LLMs的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。

Jan, 2024

UNIMO-G：基于多模态条件扩散的统一图像生成

UNIMO-G 是一个简单的多模态条件扩散框架，能够对多模态提示进行操作，并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本-图像对，以及使用多模态提示进行指导微调，实现了高保真度的图像生成。

Jan, 2024

大型语言模型在扩散模型中的提示编码作用探索

利用新提出的框架，将大型语言模型与文本到图像生成模型灵活地集成在一起，并通过消除固有的位置偏差和增强文本表示能力提高预测性能。

Jun, 2024

LLM4GEN：利用语义表示的LLM用于文本到图像生成

LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块，有效提高了复杂和密集提示的语义理解能力，为text-to-image生成任务带来了显著改进，并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024