Jun, 2024

CharXiv:多模式 LLM 模型中现实图表理解的不足之处的概览

TL;DR多模态大语言模型(MLLMs)在实际任务(如分析科学论文或财务报告)中应用图标理解起着重要作用。然而,现有数据集通常只关注模板化问题的简化和同质化图表,导致对进展的过于乐观的衡量。我们在这项工作中提出了 CharXiv,这是一个综合评估套件,包括来自 arXiv 论文的 2,323 个自然、具有挑战性和多样化的图表。CharXiv 包括两种类型的问题:1)描述性问题,涉及基本图表元素的检查;2)推理问题,需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型(GPT-4o)的推理能力(47.1% 准确率)与最强开源模型(InternVL Chat V1.5)(29.2% 准确率)之间存在一个被低估的差距。所有模型远远落后于 80.5% 的人类表现,凸显了现有 MLLMs 在图表理解能力方面的不足。我们希望 CharXiv 通过提供更加真实和忠实的进展衡量,促进未来的 MLLM 图表理解研究。