Apr, 2024

基于文本的矢量图形推理

TL;DR大型多模态模型在广泛的视觉语言基准测试中表现出色,但在需要对底层视觉细节进行精确感知的任务中(如比较线段长度或解决简单迷宫问题),常常遇到困难。针对这一挑战,我们提出了一种名为 Visually Descriptive Language Model(VDLM)的模型,它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形(SVG)进行精确的视觉描述,并通过预先训练的语言模型建立 SVG 和 PVD 之间的桥梁,VDLM 实现了更强的零样本性能,能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。