Dec, 2024

利用视觉大规模语言模型增强表格识别:基准测试与邻居引导的工具链推理器

TL;DR本研究针对结构化表格识别中存在的研究空白,通过引入视觉大规模语言模型(VLLMs)并采用无训练推理范式来提升表格识别能力。研究发现低质量图像输入是主要瓶颈,并因此提出了邻居引导工具链推理器(NGTR)框架,结合多个轻量级模型进行低级视觉处理,显著提升了表格识别性能。此框架和基准测试有望为表格识别提供新的解决方案。