使用 MATH-Vision 数据库测量多模态数学推理

Feb, 2024

使用 MATH-Vision 数据库测量多模态数学推理

Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset

Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Mingjie Zhan...

TL;DR我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Abstract

Recent advancements in large multimodal models (LMMs) have shown promising results in mathematical reasoning within visual contexts, with models approaching human-level performance on existing benchmarks such as

large multimodal models mathematical reasoning math-vision dataset math competitions error analysis

发现论文，激发创造

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建 MathVista 基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了 11 种不同模型的性能，为未来的通用 AI 代理的发展提出了挑战。

Oct, 2023

Math-LLaVA: 多模态大型语言模型的数学推理引导

利用大型语言模型提高多模态数学推理能力的关键是多模态数学数据集的多样性和合成，其中 MathV360K 数据集和 Math-LLaVA 模型为此做出了显著贡献。

Jun, 2024

推进几何问题求解：多模型评估的全面基准

通过 MM-MATH 数据集，该研究旨在评估多模态模型在几何计算领域的性能，发现当前模型从图像中解析和解释几何信息存在显著不足，强调评估方法应包括推理和过程正确性，以填补文本和图像理解方面的关键差距，以此激发进一步研究和发展，推动多模态模型能力的提升。

Apr, 2024

We-Math: 您的大型多模型是否实现了类人数学推理？

WE-MATH 是第一个旨在探索问题解决原则的基准测试，通过分解复合问题，并引入新的四维度评估指标，评估了 LMMs 在视觉数学推理中的固有问题，为知识获取与泛化提供支持，评估现有 LMMs 在视觉数学推理中的表现，揭示了求解步骤与问题特定表现之间的负相关，并指出 GPT-4o 的主要挑战由不足的知识转变为不足的泛化。

Jul, 2024

MathVerse: 您的多模式 LLM 真正看到视觉数学问题中的图表吗？

通过引入 MathVerse 基准测试，我们深入评估多模态大型语言模型（MLLMs）在解决视觉数学问题方面的能力，并提出了链式思维（CoT）评估策略以评估输出答案的细微推理步骤，以期为 MLLMs 的未来发展提供独特的见解。

Mar, 2024

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

VisionGraph：在视觉环境下利用大型多模态模型解决图论问题

大型多模态模型（LMMs）在视觉理解和推理方面取得了令人瞩目的成功，显著提高了数学推理在视觉环境中的性能。然而，多模态图理论问题是一类具有挑战性的视觉数学问题，要求 LMMs 准确理解图形结构并在视觉图上进行多步推理。我们首次设计了一个名为 VisionGraph 的基准，用于探索先进 LMM 在解决多模态图论问题方面的能力。它包括八个复杂的图问题任务，从连通性到最短路径问题。随后，我们提出了一个描述 - 编程 - 推理（DPR）链，在图形结构描述生成和算法感知的多步推理过程中提高了逻辑准确性。我们的广泛研究表明：1）GPT-4V 在多步图推理方面优于 Gemini Pro；2）无论在零 / 少样本设置还是在受监督微调（SFT）中，所有 LMM 在图形结构的感知准确性方面表现较差，这进一步影响了问题解决的性能；3）DPR 显著提高了 LMM 的多步图推理能力，GPT-4V（DPR）代理达到了 SOTA 性能。

May, 2024

NPHardEval4V: 多模态大型语言模型的动态推理基准

多模大型语言模型的推理能力研究及其在动态基准评估中的影响和不足。

Mar, 2024

提升大型视觉 - 语言模型对科学理解的多模态 ArXiv 数据集

通过引入多模态 ArXiv 数据集，包括图像标题数据集 ArXivCap 和基于科学图表产生的问答数据集 ArXivQA，以提高大型视觉 - 语言模型（LVLMs）在科学理解方面的能力，并通过四个视觉到文本任务对 LVLMs 进行了基准评估，结果表明 LVLMs 在学术图表的微妙语义理解方面存在困难，特定领域的训练能够显著提高性能。

Mar, 2024

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023