基于文本的矢量图形推理

Apr, 2024

Text-Based Reasoning About Vector Graphics

Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li...

TL;DR大型多模态模型在广泛的视觉语言基准测试中表现出色，但在需要对底层视觉细节进行精确感知的任务中（如比较线段长度或解决简单迷宫问题），常常遇到困难。针对这一挑战，我们提出了一种名为 Visually Descriptive Language Model（VDLM）的模型，它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形（SVG）进行精确的视觉描述，并通过预先训练的语言模型建立 SVG 和 PVD 之间的桥梁，VDLM 实现了更强的零样本性能，能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。

Abstract

While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering task

multimodal models vector graphics visually descriptive language model scalable vector graphics zero-shot performance

发现论文，激发创造

利用大型语言模型实现可扩展矢量图像驱动的图像理解

本文介绍了一种新的、探索性的方法，使大型语言模型能够使用可缩放矢量图形（SVG）格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟，允许 LLM 直接理解和操作图像，而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习，我们展示了我们方法的潜力在鉴别性和生成性任务上，强调了其对分布偏移的鲁棒性以及通过利用 LLM 的上下文学习能力实现的重大提高。

Jun, 2023

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

智能视觉演绎推理有多远？

近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力，结果表明，虽然 VLMs 在文本推理方面表现出色，但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。

Mar, 2024

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

超越像素：探索视觉语言模型生成简单图像的人类可读 SVG

通过引入我们的方法（Simple-SVG-Generation，简称 S extsuperscript {2} VG extsuperscript {2}），我们专注于生成准确且简单的 SVG 图像，与人类的可读性和理解力相一致，通过与先进的语言模型一起进行推理任务的简单图像评估，结果显示与先前的 SVG 生成方法相比有明显的改进。我们还对生成的 SVG 可读性进行了人类评估的调查，结果也对我们的方法持利好态度。

Nov, 2023

基于图表的推理：从 LLMs 向 VLMs 的能力转移

在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。

Mar, 2024

VisionGraph：在视觉环境下利用大型多模态模型解决图论问题

大型多模态模型（LMMs）在视觉理解和推理方面取得了令人瞩目的成功，显著提高了数学推理在视觉环境中的性能。然而，多模态图理论问题是一类具有挑战性的视觉数学问题，要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准，用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务，从连通性到最短路径问题。随后，我们提出了一个描述 - 编程 - 推理（DPR）链，在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论在零 / 少样本设置还是在受监督微调（SFT）中，所有 LMM 在图形结构的感知准确性方面表现较差，这进一步影响了问题解决的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）代理达到了 SOTA 性能。

May, 2024

大型视觉语言模型对图表理解和推理的挑战：LVLM 的能力与限制的广泛调查

本研究通过对大型视觉语言模型（LVLMs）的全面评估，揭示了它们在图表理解和推理任务中的优势和局限性，并提供了未来研究的启示。

Jun, 2024

SpatialVLM：赋予视觉语言模型空间推理能力

通过在互联网规模的空间推理数据上训练 Visual Language Model（VLM），我们显著增强了其在定量和定性空间 VQA 方面的能力，并实现了链式思维空间推理和机器人学等新颖应用。

Jan, 2024