电子表格理解的视觉语言模型：挑战与机遇

May, 2024

电子表格理解的视觉语言模型：挑战与机遇

Vision Language Models for Spreadsheet Understanding: Challenges and Opportunities

Shiyu Xia, Junyu Xiong, Haoyu Dong, Jianbo Zhao, Yuzhang Tian...

TL;DR本文通过在电子表格理解方面探索视觉语言模型的能力，提出了三个自我学习挑战并伴随相应的评估方法，全面评估了 VLMs 在光学字符识别、空间感知和视觉格式识别等方面的能力。同时，还提出三种电子表格到图像的设定，以更细致地探索 VLMs，其中包括列宽调整、样式变化和地址扩充。研究结果表明，VLMs 在 OCR 方面表现出有前途的能力，但由于单元格遗漏和错位，结果不尽人意；同时，它们在空间感知和格式识别技巧方面明显不足，为了增强 VLMs 对电子表格数据的理解能力，我们提出的方法可以在各种设置下生成大量的电子表格 - 图像对，值得进一步探索。

Abstract

This paper explores capabilities of vision language models on spreadsheet comprehension. We propose three self-supervised challenges with corresponding evaluation metrics to comprehensively evaluate VLMs on Optical Character Recognition (OCR), →

vision language models spreadsheet comprehension optical character recognition spatial perception visual format recognition

发现论文，激发创造

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉 - 语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉 - 语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉 - 语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024

在大型视觉语言模型中表示在线手写体以进行识别

通过研究在线手写识别与 VLM（视觉 - 语言模型）的结合，该论文提出了一种新颖的数字墨迹令牌化表示方法，该方法在多个公共数据集上呈现与最先进的在线手写识别器可比拟甚至更好的结果，有着广泛的应用潜力。

Feb, 2024

SpatialVLM：赋予视觉语言模型空间推理能力

通过在互联网规模的空间推理数据上训练 Visual Language Model（VLM），我们显著增强了其在定量和定性空间 VQA 方面的能力，并实现了链式思维空间推理和机器人学等新颖应用。

Jan, 2024

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024