ACLJun, 2024

多模表格理解

TL;DR本研究论文提出了一种新的问题,即多模态表格理解,其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估,构建了一个名为 MMTab 的大规模数据集,该数据集涵盖了广泛的表格图像、指令和任务。在此基础上,研发了 Table-LLaVA,一种通用的表格多模态大型语言模型(MLLM),在 23 个基准测试中,在保留内部和保留外部设置下,其性能明显优于最近的开源 MLLM 基准线。