VGBench：对矢量图形理解和生成的大型语言模型评价

Jul, 2024

VGBench：对矢量图形理解和生成的大型语言模型评价

VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation

Bocheng Zou, Mu Cai, Jianrui Zhang, Yong Jae Lee

TL;DR通过使用VGBench数据集和评估管道，我们发现大型语言模型(LLMs)在处理矢量图方面表现出很强的能力，尤其在视觉理解和生成方面，但在低级格式(SVG)上表现不佳。

Abstract

In the realm of vision models, the primary mode of representation is using pixels to rasterize the visual world. Yet this is not always the best or unique way to represent visual content, especially for designers and artists who depict the world using geometry primitives such as polygons. vec

发现论文，激发创造

DeepSVG：用于矢量图形动画的分层生成网络

本文提出了一种新颖的分层生成网络DeepSVG，可用于生成和插值SVG图标。研究者通过引入一个新的大规模数据集并结合开源SVG操作库，证明了该网络能准确重建各种矢量图形，并可作为强大的动画工具。

Jul, 2020

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释/可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen将T2I生成拆分成三个步骤，使用LM控制前两个步骤，并提供更强的空间控制；VPEval是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

利用大型语言模型实现可扩展矢量图像驱动的图像理解

本文介绍了一种新的、探索性的方法，使大型语言模型能够使用可缩放矢量图形（SVG）格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟，允许LLM直接理解和操作图像，而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习，我们展示了我们方法的潜力在鉴别性和生成性任务上，强调了其对分布偏移的鲁棒性以及通过利用LLM的上下文学习能力实现的重大提高。

Jun, 2023

自动化文本导向的科学矢量图合成与TikZ

从文本生成位图图形已经引起了相当大的关注，然而对于科学图形来说，通常更喜欢矢量图形。为了解决这个问题，我们提出了使用TikZ作为科学图形的中间表示，TikZ是一种可以编译成矢量图形的广为人知的抽象图形语言。我们引入了DaTikZ，这是一个由120k个TikZ图形与标题对齐组成的大规模数据集。我们在DaTikZ上微调了LLaMA，以及我们的新模型CLiMA，并通过多模态的CLIP嵌入来增强LLaMA。在人工和自动评估中，CLiMA和LLaMA在与人类创建的图形的相似性方面优于商业的GPT-4和Claude 2，而CLiMA还改进了文本与图像的对齐。我们对各个模型进行了详细的分析，结果显示所有模型都具有良好的泛化性，不易受记忆化的影响。然而，GPT-4和Claude 2生成的图形往往比人类和我们的模型更简单。我们将我们的框架AutomaTikZ以及模型权重和数据集公开提供。

Sep, 2023

Vi(E)va LLM！基于生成AI可视化的评估和解释概念栈

通过我们提出的评估方法和平台 EvaLLM，我们解决并评估了大型语言模型生成可视化的问题，并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。

Feb, 2024

SVGCraft：基于全面画布布局的单一物体文本到SVG合成

SVGCraft是一个新颖的整体场景生成框架，通过使用预训练的语言模型进行布局生成、精确物体定位和融合机制，以及使用漫扩散U-Net进行合成，优化生成的SVG图像，并探索在受限环境中利用原始形状进行画布补全的潜力。通过定性和定量评估，SVGCraft在抽象性、可识别性和细节方面超越了之前的工作。

Mar, 2024

基于文本的矢量图形推理

大型多模态模型在广泛的视觉语言基准测试中表现出色，但在需要对底层视觉细节进行精确感知的任务中（如比较线段长度或解决简单迷宫问题），常常遇到困难。针对这一挑战，我们提出了一种名为Visually Descriptive Language Model（VDLM）的模型，它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形（SVG）进行精确的视觉描述，并通过预先训练的语言模型建立SVG和PVD之间的桥梁，VDLM实现了更强的零样本性能，能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。

Apr, 2024

SVGEditBench: 一个用于量化评估 LLM SVG 编辑能力的基准数据集

对SVG进行编辑的能力的定量评估

Apr, 2024

多模态大语言模型的可视化能力：一项比较研究

利用可视化素养的概念评估多模式大语言模型（MLLMs）的性能，研究表明MLLMs在可视化素养方面具有竞争力，能够优于人类在识别相关性、聚类和层次结构等任务中。

Jun, 2024

大型语言模型能理解符号图形程序吗？

本研究解决了大型语言模型（LLMs）在理解符号图形程序方面的能力评估问题。这项研究提出了一种新方法，通过构建一个大型基准评估LLMs的语义理解能力，并发现LMS在处理视觉场景推理上存在显著差异。最后，引入符号指令微调（SIT）来提升模型的理解能力和指令跟从能力。

Aug, 2024