OpenLEAF: 开放领域的图文交替生成与评估

Oct, 2023

OpenLEAF: 开放领域的图文交替生成与评估

OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation

Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin...

TL;DR这项工作研究了一项名为开放域交错图像 - 文本生成的挑战性任务，该任务根据输入查询生成交错的文本和图像。我们提出了一种新的基于大型语言模型（LLMs）和预训练的文本到图像模型（T2I）的交错生成框架，即 OpenLEAF。在 OpenLEAF 中，LLM 生成文本描述，协调 T2I 模型，创建用于生成图像的视觉提示，并将全局上下文融入到 T2I 模型中。这种全局上下文提高了交错生成中图像的实体和风格的一致性。我们首先提出使用大型多模态模型（LMMs）来评估开放域交错图像 - 文本序列的实体和风格的一致性。根据 LMM 在我们构建的评估集上的评估，所提出的交错生成框架可以为各种领域和应用生成高质量的图像 - 文本内容，例如如何问答、叙事、图形故事改写以及网页 / 海报生成任务。此外，我们通过人类评估验证了所提出的 LMM 评估技术的有效性。我们希望我们提出的框架、基准和 LMM 评估能够帮助建立有趣的交错图像 - 文本生成任务。

Abstract

This work investigates a challenging task named open-domain interleaved image-text generation, which generates interleaved texts and images following an input query. We propose a new interleaved generation framework based on prompting →

open-domain interleaved image-text generation large-language models pre-trained text-to-image models interleaved generation framework multi-modal models

发现论文，激发创造

纵观文本和图像生成的整体评估

我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准，并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估，我们表明我们的基准和度量可以有效评估现有模型，并与以前的基于参考的度量具有较强的相关性。

Jun, 2024

MM-Interleaved: 多模态特征同步器下的图像与文本交错生成建模

该论文提出了 MM-Interleaved 模型，一种用于交替图像 - 文本数据的端到端生成模型，通过引入多尺度和多图像特征同步器模块，在生成过程中直接访问上下文中的细粒度图像特征，从而增强模型在识别视觉细节、遵循多模态指令和生成一致图像方面的能力。

Jan, 2024

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023

DiffusionGPT: 基于 LLM 的文本到图像生成系统

DiffusionGPT 结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

利用多模态语言模型生成图像

该论文提出了一种方法，通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中，利用它们的嵌入空间之间的映射来融合两者，从而实现多模态的图像检索、新颖图像生成和多模态对话，同时还能生成并处理图像和文本输入，比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。

May, 2023

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023