SVGEditBench: 一个用于量化评估 LLM SVG 编辑能力的基准数据集
本文介绍了一种新的、探索性的方法,使大型语言模型能够使用可缩放矢量图形(SVG)格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟,允许 LLM 直接理解和操作图像,而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习,我们展示了我们方法的潜力在鉴别性和生成性任务上,强调了其对分布偏移的鲁棒性以及通过利用 LLM 的上下文学习能力实现的重大提高。
Jun, 2023
大型多模态模型在广泛的视觉语言基准测试中表现出色,但在需要对底层视觉细节进行精确感知的任务中(如比较线段长度或解决简单迷宫问题),常常遇到困难。针对这一挑战,我们提出了一种名为 Visually Descriptive Language Model(VDLM)的模型,它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形(SVG)进行精确的视觉描述,并通过预先训练的语言模型建立 SVG 和 PVD 之间的桥梁,VDLM 实现了更强的零样本性能,能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。
Apr, 2024
通过 CodeEditorBench,我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台,其中 19 个 LLMs 的评估结果表明闭源模型(特别是 Gemini-Ultra 和 GPT-4)在 CodeEditorBench 中优于开源模型,并突出了基于问题类型和提示敏感性的模型性能差异。
Apr, 2024
通过引入我们的方法(Simple-SVG-Generation,简称 S extsuperscript {2} VG extsuperscript {2}),我们专注于生成准确且简单的 SVG 图像,与人类的可读性和理解力相一致,通过与先进的语言模型一起进行推理任务的简单图像评估,结果显示与先前的 SVG 生成方法相比有明显的改进。我们还对生成的 SVG 可读性进行了人类评估的调查,结果也对我们的方法持利好态度。
Nov, 2023
Scalable Vector Graphics (SVGs) have become integral in modern image rendering applications. This paper introduces StarVector, a multimodal SVG generation model that effectively integrates Code Generation Large Language Models (CodeLLMs) and vision models.
Dec, 2023
基于多模态知识图,本研究构建了一个新的基准评估 $ extbf {KEBench}$,并扩展了一种新的评估指标(可移植性),通过对五个大型视觉语言模型进行不同编辑方法的实验,深入分析这些方法对模型的影响,揭示了这些方法的优点和不足,为未来的研究提供了启示。
Mar, 2024
提出了一种基于超像素的矢量化模型 SuperSVG,它通过将输入图像分解成超像素,采用两阶段自训练框架和动态路径扭曲损失来实现图像的快速高精度矢量化。与现有方法相比,该方法在重建精度和推理时间方面表现出更优的性能。
Jun, 2024
通过引入 EditVal,这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试,本研究对 8 种前沿扩散编辑方法进行了基准测试,发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性,而大多数编辑方法在空间操作方面失败,没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。
Oct, 2023
提出了一种基于文本提示生成高质量定制化矢量图形的新型流程,该流程利用大型预训练的文本到图像模型的能力,在保留给定示例 SVG 的属性和分层信息的同时生成定制化的光栅图像,方法中引入了基于语义的路径对齐方法以保留和转换关键路径,使用图像级和矢量级损失优化路径参数以确保平滑的形状变形与定制化的光栅图像对齐,通过从矢量级、图像级和文本级多个角度对其进行评估,评估结果表明该流程在生成具有优秀质量的矢量图形定制化方面具有有效性。
Sep, 2023
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024