ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力

Jun, 2024

ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang...

TL;DR我们介绍了一个新的基准测试，ChartMimic，旨在评估大型多模态模型（LMMs）的视觉基础代码生成能力。ChartMimic 利用信息密集型的可视化图表和文本说明作为输入，要求 LMMs 生成相应的代码以进行图表渲染。ChartMimic 包含了 1,000 个人工策划的（图表，说明，代码）三元组，代表了在各个领域（如物理学，计算机科学，经济学等）的科学论文中找到的真实图表用例。这些图表涵盖了 18 种常规类型和 4 种高级类型，分为 191 个子类别。此外，我们提出了多级评估指标，以对输出代码和渲染后的图表进行自动和全面的评估。与现有的代码生成基准测试不同，ChartMimic 强调评估 LMMs 在视觉理解、代码生成和跨模态推理等多种认知能力的融合能力。对 3 个专有模型和 11 个开源模型的评估突出了 ChartMimic 所带来的巨大挑战。即使是先进的 GPT-4V 和 Claude-3-opus 平均得分分别为 73.2 和 53.7，表明仍有很大的改进空间。我们预计 ChartMimic 将激发 LMMs 的发展，推动人工通用智能的追求。

Abstract

We introduce a new benchmark, chartmimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models

chartmimic visually-grounded code generation multimodal models evaluation metrics artificial general intelligence

发现论文，激发创造

MMC：用大规模指导调优推进多模态图表理解

利用大型语言模型和多模态模型的整合，在用户定向视觉语言任务的零样本完成方面取得了令人瞩目的进展。我们引入了一个大规模的多模态图表指导（MMC-Instruction）数据集，包含 600k 个实例，支持多样化的任务和图表类型。基于这些数据，我们开发了一个多模态图表助手（MMCA），它在现有的图表问答基准上实现了最先进的性能。为了全面评估多模态理解图表的能力，我们还提出了一个多模态图表基准（MMC-Benchmark），这是一个包含 9 个不同任务的全面人工标注基准，评估对图表的推理能力。对 MMC-Benchmark 的大量实验揭示了现有的语言模型在正确解释图表方面的局限性，即使是最新的 GPT-4V 模型也是如此。我们的工作提供了一种指导方法和基准，以促进图表的多模态理解。

Nov, 2023

ChartBench：图表中的复杂可视推理基准

通过更复杂的视觉逻辑和引入 ChartBench 基准，准确衡量 MLLMs 在图表数据中的基本理解能力和数据可靠性，并揭示了它们的局限性，以激发研究界对 MLLMs 的图表理解能力更加关注。

Dec, 2023

ChartX 和 ChartVLM：一种复杂图表推理的通用基准和基础模型

我们构建了一个多模态评估集 ChartX，包括 18 种图表类型、7 种图表任务、22 个学科领域和高质量的图表数据，然后开发了一个新的视角来处理依赖可解释模式的多模态任务，即 ChartVLM。我们在 ChartX 评估集上评估了主流多模态大模型和我们的 ChartVLM，实验证明 ChartVLM 在图表相关能力上超越了通用的和与图表相关的大模型，达到了与 GPT-4V 可比较的结果。我们相信我们的研究可以为在创建更全面的图表评估集和开发更可解释的多模态模型方面的进一步探索铺平道路。

Feb, 2024

CharXiv：多模式 LLM 模型中现实图表理解的不足之处的概览

多模态大语言模型（MLLMs）在实际任务（如分析科学论文或财务报告）中应用图标理解起着重要作用。然而，现有数据集通常只关注模板化问题的简化和同质化图表，导致对进展的过于乐观的衡量。我们在这项工作中提出了 CharXiv，这是一个综合评估套件，包括来自 arXiv 论文的 2,323 个自然、具有挑战性和多样化的图表。CharXiv 包括两种类型的问题：1）描述性问题，涉及基本图表元素的检查；2）推理问题，需要综合图表中复杂的视觉元素的信息。我们的结果显示了最强专有模型（GPT-4o）的推理能力（47.1% 准确率）与最强开源模型（InternVL Chat V1.5）（29.2% 准确率）之间存在一个被低估的差距。所有模型远远落后于 80.5% 的人类表现，凸显了现有 MLLMs 在图表理解能力方面的不足。我们希望 CharXiv 通过提供更加真实和忠实的进展衡量，促进未来的 MLLM 图表理解研究。

Jun, 2024

ChartLlama: 图表理解和生成的多模态 LLM

通过创建高质量的指令调整数据集，并使用这个数据集训练多模态大型语言模型 ChartLlama，本研究提出的数据生成方法可以有效地提高图表理解能力，并在 ChartQA、图表转文本和图表提取等评估中明显超越以往的方法，证实了其巨大潜力。

Nov, 2023

mChartQA：基於視覺語言對齊和推理的跨模態圖表問答通用基準

该论文介绍了一种新颖的多模态图表问答模型，专门设计用于处理复杂的多模态任务，通过融合视觉和语言处理，克服了传统方法的局限性，采用双阶段训练方法，在处理色彩、结构和无文字图表问题方面表现出优异性能。

Apr, 2024

基于图表的推理：从 LLMs 向 VLMs 的能力转移

在 VLMs 中，我们提出了一种从 LLMs 转移能力的技术，通过改善图表表示和构建比原始训练集大 20 倍的数据集，合成图表的推理痕迹，最后使用多任务损失对模型进行微调，取得了令人满意的性能。

Mar, 2024

Plot2Code：用于评估科学图形代码生成的多模态大型语言模型的综合基准

通过 Plot2Code 对大规模多模式语言模型的视觉编码进行全面评估，揭示了现有的大多数多模式语言模型在文字密集图中的视觉编码方面存在的困难，重度依赖于文本指导，希望评估结果能指导未来多模式语言模型的发展。

May, 2024

通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力

介绍了一种名为 ChartT5 的 V+L 模型，通过对绘图表格对进行跨模态预训练学习，具备了解释图表信息的能力，其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Prediction (MVP) 有效提高了模型的表格信息解释能力，在答题和总结图表方面的表现都超过了同类方法 8% 以上。

May, 2023

使用丰富视觉编程问题评估多模态编程大型语言模型

在代码编写过程中，开发人员通常利用视觉辅助工具更有效地传达概念。然而，最近在大型多模态模型方面的发展表明在视觉推理和数学任务方面取得了显著能力，但在研究这些模型是否能够有效地解释用于代码生成的视觉元素方面几乎没有相关工作。为此，我们提出了 MMCode，这是第一个用于在视觉丰富的环境中评估算法问题解决能力的多模态编码数据集，包含了 3548 个问题和 6620 张图片，这些数据来自于 10 个代码竞赛网站采集的现实世界的编程挑战，由于对推理能力的极高要求而具有显著的挑战性。我们的实验结果表明，现有最先进的模型在解决这些问题时存在困难。这些结果突显了缺乏强大的视觉 - 代码模型，我们希望 MMCode 可以成为这个领域未来工作的启示。该数据集和代码可以在提供的网址公开获取。

Apr, 2024