TheaterGen: 使用 LLM 进行一致多轮场景角色管理的图像生成

Apr, 2024

TheaterGen: 使用 LLM 进行一致多轮场景角色管理的图像生成

TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation

Junhao Cheng, Baiqiao Yin, Kaixin Cai, Minbin Huang, Hanhui Li...

TL;DRTheaterGen 是一个无需训练的框架，通过将大型语言模型（LLMs）和文本到图像（T2I）模型集成，实现了多回合图像生成。该框架通过 LLMs 生成和管理一个标准化的提示书，从而提高合成图像的语义一致性和上下文一致性。通过将提示书和指导信息结合到 T2I 扩散模型的反降噪过程中，TheaterGen 生成最终的图像，从而大大提升了合成图像的质量。

Abstract

Recent advances in diffusion models can generate high-quality and stunning images from text. However, multi-turn image generation, which is of high demand in real-world scenarios, still faces challenges in mainta

diffusion models multi-turn image generation semantic consistency contextual consistency theatergen

发现论文，激发创造

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024

LLM4GEN：利用语义表示的 LLM 用于文本到图像生成

LLM4GEN 通过结合 LLMs 特征设计的 Cross-Adapter 模块，有效提高了复杂和密集提示的语义理解能力，为 text-to-image 生成任务带来了显著改进，并在 sample 质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

TaleCrafter: 多角色交互式故事可视化

本文提出了一个通用的交互式故事可视化系统，该系统涵盖了故事到提示生成，文本到布局生成，可控文本到图像生成和图像到视频动画四个组件，允许用户处理多个新角色和灵活修改布局与结构。

May, 2023

AutoStudio: 多回合互动图像生成中一致主题的构建

AutoStudio 是一个训练免费的多代理框架，通过使用大型语言模型生成高质量图像，并且能够与用户进行多次交互来生成一系列多主题图像。

Jun, 2024

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024

大型语言模型是零样本文本到视频生成的帧级导演

本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V，该模型可以通过用户提供的单个抽象提示生成一帧帧的视频，并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性，从而解决了零样本视频生成的挑战。

May, 2023

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024