Dec, 2024
利用视觉大规模语言模型增强表格识别:基准测试与邻居引导的工具链推理器
Enhancing Table Recognition with Vision LLMs: A Benchmark and
Neighbor-Guided Toolchain Reasoner
TL;DR本研究针对结构化表格识别中存在的研究空白,通过引入视觉大规模语言模型(VLLMs)并采用无训练推理范式来提升表格识别能力。研究发现低质量图像输入是主要瓶颈,并因此提出了邻居引导工具链推理器(NGTR)框架,结合多个轻量级模型进行低级视觉处理,显著提升了表格识别性能。此框架和基准测试有望为表格识别提供新的解决方案。