May, 2024

电子表格理解的视觉语言模型:挑战与机遇

TL;DR本文通过在电子表格理解方面探索视觉语言模型的能力,提出了三个自我学习挑战并伴随相应的评估方法,全面评估了 VLMs 在光学字符识别、空间感知和视觉格式识别等方面的能力。同时,还提出三种电子表格到图像的设定,以更细致地探索 VLMs,其中包括列宽调整、样式变化和地址扩充。研究结果表明,VLMs 在 OCR 方面表现出有前途的能力,但由于单元格遗漏和错位,结果不尽人意;同时,它们在空间感知和格式识别技巧方面明显不足,为了增强 VLMs 对电子表格数据的理解能力,我们提出的方法可以在各种设置下生成大量的电子表格 - 图像对,值得进一步探索。