现实与幻想的构建：LLM辅助提示解释的现场生成

Jul, 2024

现实与幻想的构建：LLM辅助提示解释的现场生成

The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation

Yi Yao, Chan-Feng Hsu, Jhe-Hao Lin, Hongxia Xie, Terence Lin...

TL;DR通过扩展扩散模型，本研究通过Realistic-Fantasy网络（RFNet）提供了一种无需训练的方法，从而解决了在处理复杂和富有想象力的提示时的局限性，并结合了艺术创造力和现实-幻想场景。

Abstract

In spite of recent advancements in text-to-image generation, limitations persist in handling complex and imaginative prompts due to the restricted diversity and complexity of training data. This work explores how diffus

发现论文，激发创造

Attend-and-Excite: 基于注意力的文本到图像扩散模型的语义引导

本文通过分析现有的文本到图像生成模型，发现它们可能存在的主体遗漏及属性捆绑问题，通过介绍“生成语义护理”（GSN）的概念和基于注意力机制的Attend-and-Excite方法，可以在推理过程中实时干预生成过程，大大提高所生成图像的真实性和语义连贯性。

Jan, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

LLM蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

DreamDistribution: 基于提示分布学习的文本-图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到3D的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

掌握文本到图像扩散：多模态LLM的重新字幕、规划和生成

提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG，该框架利用多模态LLMs的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。

Jan, 2024

Artstation 平台无趋势：生成 AI 艺术的快速分析

通过使用生成AI进行图像生成，我们收集并分析了超过300万个提示和它们生成的图像，通过自然语言处理、主题分析和可视化方法，我们旨在共同理解人们如何使用文本提示，这些系统对艺术家的影响以及它们所推广的视觉文化。我们的研究表明，提示主要关注表面美学，强化文化规范、流行的传统表达和意象。我们还发现许多用户关注流行的主题（如制作填色书、幻想艺术或圣诞卡片），这表明所分析的系统的主要用途是娱乐而非艺术性。

Jan, 2024

利用互信息在扩散模型中提供一致字符生成的ORACLE

通过介绍一种新的方法，本文研究了如何从单一的文本提示产生具有一致的视觉特征的角色表达，通过定量和定性分析，证明了该方法在生成具有一致视觉特征的角色方面优于现有方法，扩展了艺术和创作表达的可能性。

Jun, 2024

PhyBench：用于评估文本到图像模型的物理常识基准

通过引入PhyBench评估数据集，我们评估了6个主要的T2I模型，发现当前的T2I模型主要关注文本到图像翻译，缺乏对物理常识的深入推理；我们提倡对T2I模型内在知识的更多关注，超越它们仅仅作为图像生成工具的实用性。

Jun, 2024

一种统一的框架用于整合LLMs、知识图谱和可控扩散模型的一致性图像生成（PCIG）

通过引入一种基于扩散的新框架，本研究解决了现有文本生成图像模型在生成图像时与输入文本不一致的问题，通过对不一致现象进行细致分析和分类，并利用先进的语言模型提取对象、构建知识图谱，结合图像生成模型进行了准确一致的图像生成实验。

Jun, 2024