利用大型语言模型实现可扩展矢量图像驱动的图像理解

Jun, 2023

利用大型语言模型实现可扩展矢量图像驱动的图像理解

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding

Mu Cai, Zeyi Huang, Yuheng Li, Haohan Wang, Yong Jae Lee

TL;DR本文介绍了一种新的、探索性的方法，使大型语言模型能够使用可缩放矢量图形（SVG）格式来处理图像。我们的方法旨在弥合视觉和文本模态之间的鸿沟，允许 LLM 直接理解和操作图像，而无需参数化的视觉组件。通过简单的图像分类、生成和上下文学习，我们展示了我们方法的潜力在鉴别性和生成性任务上，强调了其对分布偏移的鲁棒性以及通过利用 LLM 的上下文学习能力实现的重大提高。

Abstract

Recently, large language models (LLMs) have made significant advancements in natural language understanding and generation. However, their potential in computer vision remains largely unexplored. In this paper, w

large language models computer vision svg format image classification in-context learning

发现论文，激发创造

超越像素：探索视觉语言模型生成简单图像的人类可读 SVG

通过引入我们的方法（Simple-SVG-Generation，简称 S extsuperscript {2} VG extsuperscript {2}），我们专注于生成准确且简单的 SVG 图像，与人类的可读性和理解力相一致，通过与先进的语言模型一起进行推理任务的简单图像评估，结果显示与先前的 SVG 生成方法相比有明显的改进。我们还对生成的 SVG 可读性进行了人类评估的调查，结果也对我们的方法持利好态度。

Nov, 2023

基于文本的矢量图形推理

大型多模态模型在广泛的视觉语言基准测试中表现出色，但在需要对底层视觉细节进行精确感知的任务中（如比较线段长度或解决简单迷宫问题），常常遇到困难。针对这一挑战，我们提出了一种名为 Visually Descriptive Language Model（VDLM）的模型，它在二维矢量图形领域进行基于文本的推理。通过使用可伸缩矢量图形（SVG）进行精确的视觉描述，并通过预先训练的语言模型建立 SVG 和 PVD 之间的桥梁，VDLM 实现了更强的零样本性能，能够推广到各种基于二维矢量图形的低级多模态感知和推理任务。

Apr, 2024

借助大型语言模型重新思考逆向图形

通过大型语言模型中编码的广泛世界知识，我们提出了一个反向图形的大型语言模型（IG-LLM）框架，将视觉嵌入解码为结构化的、组合的三维场景表示，从而展示了语言模型在逆向图形中的潜力，并推动了关于图像的精确空间推理的新可能性。

Apr, 2024

使用大型语言模型进行可视化标注（CVLLM）：教程

自动生成可视化工具的标题是很不新鲜的，但是最近大规模语言模型 (LLMs) 的进步为此带来了令人激动的新可能。本文在对信息可视化（InfoVis）原理和过去的标题工作进行简要回顾后，介绍了在通用 LLMs 中使用的神经模型和变压器架构。接下来，我们讨论了它们在 InfoVis 中的最新应用，重点是标题。此外，我们还探讨了这个领域未来的有希望的研究方向。

Jun, 2024

语言模型的视觉检查

文中系统评估了大型语言模型（LLMs）生成和识别各种复杂视觉概念的能力，并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明，通过精确地建模字符串，语言模型可以在视觉世界的多个方面展现出作用，同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助 LLMs 能够训练具备语义评估能力的视觉模型的潜力。

Jan, 2024

LLMs 作为视觉解释器：通过演变的视觉描述推进图像分类

将视觉语言模型（VLMs）与大型语言模型（LLMs）相结合的迭代优化与视觉反馈方法，显著提高了图像分类性能，并产生了可解释和稳健的特征描述符。

Nov, 2023

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024