DiagrammerGPT：通过 LLM 规划生成开放领域、开放平台的图表

Oct, 2023

DiagrammerGPT：通过 LLM 规划生成开放领域、开放平台的图表

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning

Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal

TL;DR提出了 DiagrammerGPT，它是一个新颖的两阶段文本生成图表的框架，利用了 LLMs 的布局指导能力来生成更准确的开放领域、开放平台图表。

Abstract

Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels,

text-to-image generation diagram generation layout guidance diagram plans diagrammergpt

发现论文，激发创造

DiffusionGPT: 基于 LLM 的文本到图像生成系统

DiffusionGPT 结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

LayoutGPT：大型语言模型的构成性可视化规划与生成

LayoutGPT 是一种利用 LLMS 生成样式表语言的方法，能够生成多个视觉域中的可信布局，包括三维室内场景；当与下游图像生成模型相结合时，比文本到图像模型系统表现更好，并可在正确性方面与人类用户进行比较，同时在 3D 室内场景合成方面也与监督方法实现相当的性能。

May, 2023

Graphologue：利用交互式图表探索大型语言模型响应

通过 Graphologue，我们发现利用图形化图表展示 LLMs 的信息能方便人们的信息处理与提问，构建了一种基于 LLMs 的交互式系统，使得信息的探索，组织和理解更加方便。

May, 2023

基于需求的 LLM 模型生成：一项探索性研究

ChatGPT 能够从自然语言需求中生成 UML 序列图，但生成的模型在完整性和正确性方面存在挑战，尤其在需求不明确和不一致的情况下。此研究对要求工程领域中的大型语言模型的实际应用和有效的模型生成提示策略具有重要影响。

Apr, 2024

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen 将 T2I 生成拆分成三个步骤，使用 LM 控制前两个步骤，并提供更强的空间控制；VPEval 是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

图文融合：图推理在文本空间中

通过一种新的框架 GraphText，将图形转化为自然语言，无需图数据训练，能够实现与监督训练图神经网络相媲美甚至超越其性能的图推理，同时为人类和大型语言模型提供了与模型无缝交流的方式，突显了大型语言模型在图机器学习领域尚未探索的巨大潜力。

Oct, 2023

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

评估用于图到文本生成的生成模型

本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力，并与微调后的语言模型进行了比较，在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本，AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而，我们的错误分析发现生成模型仍然难以理解实体之间的语义关系，并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分，我们使用 BERT 检测机器生成的文本，并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。

Jul, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

mPLUG-PaperOwl: 多模态大型语言模型的科学图解析

通过强化多模态图表分析能力，我们构建了多模态图表理解数据集 M-Paper 并引入了控制信号‘outline’，通过与先进的多模态语言模型的全面实验，证明了在我们的数据集上进行训练能够展现更强大的科学图表理解性能.

Nov, 2023