VGBench:对矢量图形理解和生成的大型语言模型评价
本文提出了一种新颖的分层生成网络DeepSVG,可用于生成和插值SVG图标。研究者通过引入一个新的大规模数据集并结合开源SVG操作库,证明了该网络能准确重建各种矢量图形,并可作为强大的动画工具。
Jul, 2020
本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
本文介绍了一种新的、探索性的方法,使大型语言模型能够使用可缩放矢量图形(SVG)格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟,允许LLM直接理解和操作图像,而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习,我们展示了我们方法的潜力在鉴别性和生成性任务上,强调了其对分布偏移的鲁棒性以及通过利用LLM的上下文学习能力实现的重大提高。
Jun, 2023
从文本生成位图图形已经引起了相当大的关注,然而对于科学图形来说,通常更喜欢矢量图形。为了解决这个问题,我们提出了使用TikZ作为科学图形的中间表示,TikZ是一种可以编译成矢量图形的广为人知的抽象图形语言。我们引入了DaTikZ,这是一个由120k个TikZ图形与标题对齐组成的大规模数据集。我们在DaTikZ上微调了LLaMA,以及我们的新模型CLiMA,并通过多模态的CLIP嵌入来增强LLaMA。在人工和自动评估中,CLiMA和LLaMA在与人类创建的图形的相似性方面优于商业的GPT-4和Claude 2,而CLiMA还改进了文本与图像的对齐。我们对各个模型进行了详细的分析,结果显示所有模型都具有良好的泛化性,不易受记忆化的影响。然而,GPT-4和Claude 2生成的图形往往比人类和我们的模型更简单。我们将我们的框架AutomaTikZ以及模型权重和数据集公开提供。
Sep, 2023
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
SVGCraft是一个新颖的整体场景生成框架,通过使用预训练的语言模型进行布局生成、精确物体定位和融合机制,以及使用漫扩散U-Net进行合成,优化生成的SVG图像,并探索在受限环境中利用原始形状进行画布补全的潜力。通过定性和定量评估,SVGCraft在抽象性、可识别性和细节方面超越了之前的工作。
Mar, 2024
大型多模态模型在广泛的视觉语言基准测试中表现出色,但在需要对底层视觉细节进行精确感知的任务中(如比较线段长度或解决简单迷宫问题),常常遇到困难。针对这一挑战,我们提出了一种名为Visually Descriptive Language Model(VDLM)的模型,它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形(SVG)进行精确的视觉描述,并通过预先训练的语言模型建立SVG和PVD之间的桥梁,VDLM实现了更强的零样本性能,能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。
Apr, 2024
利用可视化素养的概念评估多模式大语言模型(MLLMs)的性能,研究表明MLLMs在可视化素养方面具有竞争力,能够优于人类在识别相关性、聚类和层次结构等任务中。
Jun, 2024
本研究解决了大型语言模型(LLMs)在理解符号图形程序方面的能力评估问题。这项研究提出了一种新方法,通过构建一个大型基准评估LLMs的语义理解能力,并发现LMS在处理视觉场景推理上存在显著差异。最后,引入符号指令微调(SIT)来提升模型的理解能力和指令跟从能力。
Aug, 2024