DiffusionGPT: 基于LLM的文本到图像生成系统
通过 DiffusionDB 这个大规模的文本引导数据集,我们可以更好地理解中自然语言提示与生成模型之间的相互作用,检测深度伪造,并设计帮助用户更轻松使用这些模型的人工智能交互工具。
Oct, 2022
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法,包括两个阶段:第一阶段使用大型语言模型生成场景布局;第二阶段使用一个新的控制器,来生成与布局条件相符的图像。实验结果表明,该方法能更准确地生成需要语言和空间推理的图像。
May, 2023
此篇论文提出了一种名为Prompt-Free Diffusion的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器(SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的T2I模型相媲美。
May, 2023
基于知识蒸馏的轻量级参数效率适配器 (PEA) 的训练方法可用于实现非英语文本到图像的生成,并在跨语言文本到图像生成的下游任务中获得重要结果。
Nov, 2023
提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG,该框架利用多模态LLMs的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。
Jan, 2024
UNIMO-G 是一个简单的多模态条件扩散框架,能够对多模态提示进行操作,并展示了文本驱动和主体驱动图像生成的统一能力。该框架通过训练大规模文本-图像对,以及使用多模态提示进行指导微调,实现了高保真度的图像生成。
Jan, 2024
LLM4GEN通过结合LLMs特征设计的Cross-Adapter模块,有效提高了复杂和密集提示的语义理解能力,为text-to-image生成任务带来了显著改进,并在sample质量、图像文本对齐和人工评估方面超越了现有的最先进模型。
Jun, 2024