DiffChat: 学习与文本到图像合成模型对话以实现交互式图像创作

Mar, 2024

DiffChat: 学习与文本到图像合成模型对话以实现交互式图像创作

DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation

Jiapeng Wang, Chengyu Wang, Tingfeng Cao, Jun Huang, Lianwen Jin

TL;DRDiffChat 是一个新颖的方法，用于将大型语言模型（LLMs）与以 prompt 为输入的文本到图像合成（TIS）模型（例如 Stable Diffusion）进行对齐，以实现交互式图像生成。它能够根据给定的原始提示 / 图像和用户指定的指令有效地进行适当的修改并生成目标提示，从而帮助生成高质量的目标图像。DiffChat 通过收集名为 InstructPE 的指令跟踪提示工程数据集进行监督训练，提出了一个包括三个核心评估标准（美学、用户喜好和内容完整性）反馈的强化学习框架来实现这一目标。在离线采样过程中，它采用一种动态修改技术来获得更相关的正样本和更难的负样本。为了进一步提高生成图像的质量，还将内容完整性引入到值估计函数中。通过比较自动评估和人工评估，我们的方法表现出优于基准模型和强竞争对手的性能，充分证明了其有效性。

Abstract

We present diffchat, a novel method to align large language models (LLMs) to "chat" with prompt-as-input text-to-image synthesis (TIS) mod

diffchat large language models text-to-image synthesis prompt engineering dataset reinforcement learning framework

发现论文，激发创造

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

ClickDiffusion：利用 LLMs 进行交互精确图像编辑

提出了一种名为 ClickDiffusion 的系统，结合自然语言指令和用户通过直接操作界面提供的可视化反馈，将图像和多模态指令序列化为文本表示形式，以实现图像的精确变换和生成。

Apr, 2024

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

ChatIllusion: 高效对齐交错生成自适应可视化指导模型

通过 GenAdapter 将视觉表示能力集成到 ChatIllusion 中，ChatIllusion 是一种高级生成多模态大语言模型，结合了大语言模型的能力和视觉理解能力，能够为用户提供多样且高质量的图像输出，同时保持语义一致性和对话控制性，极大提升用户的体验质量。

Nov, 2023

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

DreamDistribution: 基于提示分布学习的文本 - 图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到 3D 的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023