CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

Jun, 2024

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu...

TL;DR多模态大语言模型（MLLMs）在实际任务（如分析科学论文或财务报告）中应用图标理解起着重要作用。然而，现有数据集通常只关注模板化问题的简化和同质化图表，导致对进展的过于乐观的衡量。我们在这项工作中提出了 CharXiv，这是一个综合评估套件，包括来自 arXiv 论文的 2,323 个自然、具有挑战性和多样化的图表。CharXiv 包括两种类型的问题：1）描述性问题，涉及基本图表元素的检查；2）推理问题，需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型（GPT-4o）的推理能力（47.1% 准确率）与最强开源模型（InternVL Chat V1.5）（29.2% 准确率）之间存在一个被低估的差距。所有模型远远落后于 80.5% 的人类表现，凸显了现有 MLLMs 在图表理解能力方面的不足。我们希望 CharXiv 通过提供更加真实和忠实的进展衡量，促进未来的 MLLM 图表理解研究。

Abstract

chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, l

chart understanding multimodal large language models evaluation suite reasoning skills mllm chart understanding

发现论文，激发创造

ChartX 和 ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集 ChartX，包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM，实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型，达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

ChartBench：图表中的复杂可视推理基准

通过更复杂的视觉逻辑和引入 ChartBench 基准，准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性，并揭示了它们的局限性，以激发研究界对 MLLMs 的图表理解能力更加关注。

Dec, 2023

ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力

我们介绍了一个新的基准测试，ChartMimic，旨在评估大型多模态模型（LMMs）的视觉基础代码生成能力。ChartMimic 利用信息密集型的可视化图表和文本说明作为输入，要求 LMMs 生成相应的代码以进行图表渲染。ChartMimic 包含了 1,000 个人工策划的（图表，说明，代码）三元组，代表了在各个领域（如物理学，计算机科学，经济学等）的科学论文中找到的真实图表用例。这些图表涵盖了 18 种常规类型和 4 种高级类型，分为 191 个子类别。此外，我们提出了多级评估指标，以对输出代码和渲染后的图表进行自动和全面的评估。与现有的代码生成基准测试不同，ChartMimic 强调评估 LMMs 在视觉理解、代码生成和跨模态推理等多种认知能力的融合能力。对 3 个专有模型和 11 个开源模型的评估突出了 ChartMimic 所带来的巨大挑战。即使是先进的 GPT-4V 和 Claude-3-opus 平均得分分别为 73.2 和 53.7，表明仍有很大的改进空间。我们预计 ChartMimic 将激发 LMMs 的发展，推动人工通用智能的追求。

Jun, 2024

大型视觉语言模型对图表理解和推理的挑战：LVLM 的能力与限制的广泛调查

本研究通过对大型视觉语言模型（LVLMs）的全面评估，揭示了它们在图表理解和推理任务中的优势和局限性，并提供了未来研究的启示。

Jun, 2024

评估基于任务的多语言语言模型对图表的有效性

我们研究了 GPT-4V 在图表的低级数据分析任务中的有效性，并通过实验结果发现其潜力和局限性，同时提出了一种名为 “Chain-of-Charts” 的新颖文本提示策略，能够提高模型性能并揭示人类分析需求与 GPT-4V 能力之间的差距。

May, 2024

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

ChartQA: 针对图表的问题回答的视觉和逻辑推理基准

本文提出了一个大规模基准测试，包括 9.6K 个人为编写的问题和 23.1K 个由人类编写的图表摘要生成的问题，并运用两种基于 Transformer 的模型来回答问题，这些模型将图表的视觉特征和数据表统一起来处理来解决目标检测中的视觉和逻辑推理等问题。

Mar, 2022

ChartLlama: 图表理解和生成的多模态 LLM

通过创建高质量的指令调整数据集，并使用这个数据集训练多模态大型语言模型 ChartLlama，本研究提出的数据生成方法可以有效地提高图表理解能力，并在 ChartQA、图表转文本和图表提取等评估中明显超越以往的方法，证实了其巨大潜力。

Nov, 2023

MMC：用大规模指导调优推进多模态图表理解

利用大型语言模型和多模态模型的整合，在用户定向视觉语言任务的零样本完成方面取得了令人瞩目的进展。我们引入了一个大规模的多模态图表指导（MMC-Instruction）数据集，包含 600k 个实例，支持多样化的任务和图表类型。基于这些数据，我们开发了一个多模态图表助手（MMCA），它在现有的图表问答基准上实现了最先进的性能。为了全面评估多模态理解图表的能力，我们还提出了一个多模态图表基准（MMC-Benchmark），这是一个包含 9 个不同任务的全面人工标注基准，评估对图表的推理能力。对 MMC-Benchmark 的大量实验揭示了现有的语言模型在正确解释图表方面的局限性，即使是最新的 GPT-4V 模型也是如此。我们的工作提供了一种指导方法和基准，以促进图表的多模态理解。

Nov, 2023

提升大型视觉 - 语言模型对科学理解的多模态 ArXiv 数据集

通过引入多模态 ArXiv 数据集，包括图像标题数据集 ArXivCap 和基于科学图表产生的问答数据集 ArXivQA，以提高大型视觉 - 语言模型（LVLMs）在科学理解方面的能力，并通过四个视觉到文本任务对 LVLMs 进行了基准评估，结果表明 LVLMs 在学术图表的微妙语义理解方面存在困难，特定领域的训练能够显著提高性能。

Mar, 2024