Apr, 2024

TableVQA-Bench: 多表领域上的视觉问答基准

TL;DR本文介绍了一个名为 TableVQA-Bench 的基准,用于表格视觉问答,该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统,获取图像,并通过利用大型语言模型生成 QA 问题。我们在 TableVQA-Bench 上全面比较了不同的多模态大型语言模型的性能,其中 GPT-4V 在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明,对于 TableVQA 而言,视觉输入的处理比文本输入更具挑战性。