MathScape：通过分层基准评估多模态数学场景中的大型语言模型

Aug, 2024

MathScape：通过分层基准评估多模态数学场景中的大型语言模型

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin...

TL;DR本研究针对现有多模态数学评估基准未能有效整合视觉和文本信息的问题，提出了MathScape，一个新的分层基准，强调组合视觉和文本理解及应用。研究表明，该基准即使对最先进的多模态大型语言模型也具有挑战性，分析结果揭示了这些模型的局限性，为改进模型性能提供了重要见解。

Abstract

With the development of Multimodal Large Language Models (MLLMs), the Evaluation of →

发现论文，激发创造

多模式大型语言模型综述

本文旨在追踪和总结MLLM的最新进展，包括MLLM的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

多模态理解排行榜：文本与图像

Multi是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估MLLMs在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs在Multi上取得了显著的进展，与其他MLLMs相比，GPT-4V的准确率达到了63.7%，Multi不仅是一个强大的评估平台，也为专家级AI的发展铺平了道路。

Feb, 2024

使用MATH-Vision数据库测量多模态数学推理

我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力，并发现目前的模型在MATH-V数据集上与人类表现存在明显差距，强调了对大规模多模态模型的进一步发展的必要性，此外，我们的详细分类还允许对其错误进行全面分析，为未来的研究和开发提供有价值的见解。

Feb, 2024

MathVerse: 您的多模式LLM真正看到视觉数学问题中的图表吗？

通过引入MathVerse基准测试，我们深入评估多模态大型语言模型（MLLMs）在解决视觉数学问题方面的能力，并提出了链式思维（CoT）评估策略以评估输出答案的细微推理步骤，以期为MLLMs的未来发展提供独特的见解。

Mar, 2024

推进几何问题求解：多模型评估的全面基准

通过MM-MATH数据集，该研究旨在评估多模态模型在几何计算领域的性能，发现当前模型从图像中解析和解释几何信息存在显著不足，强调评估方法应包括推理和过程正确性，以填补文本和图像理解方面的关键差距，以此激发进一步研究和发展，推动多模态模型能力的提升。

Apr, 2024

MathScape：通过分层基准评估多模态数学场景中的大规模语言模型

本研究解决了多模态大语言模型在数学问题评估中的视觉与文本信息整合不足的问题。提出的MathScape基准通过分层方法，强调对结合视觉和文本信息的理解与应用能力的评估。研究发现该基准对先进模型具有挑战性，识别了MLLMs的局限性，为提升模型性能提供了重要见解。

Aug, 2024

MathScape：通过分层基准评估多模态大型语言模型在数学场景中的表现

本研究针对以往多模态数学基准未充分整合视觉与文本信息的问题，提出了MathScape基准，强调对综合视觉与文本信息的理解与应用。研究结果显示，该基准对最先进的多模态大型语言模型而言具有挑战性，并通过评估发现模型的局限性，为提升模型性能提供了重要见解。

Aug, 2024

Math-PUMA：渐进向上的多模态对齐以增强数学推理能力

本研究解决了多模态大型语言模型在处理数学图表时的能力不足问题，特别是在信息从文本转向视觉时表现不佳。提出的Math-PUMA方法通过三阶段训练，特别关注对齐阶段，有效提升了语言模型的数学推理能力。实验结果表明，该方法显著缩小了不同模态问题的表现差距，提升了模型在数学推理基准测试中的性能。

Aug, 2024

中文多模态数学数据集CMM-Math：评估与提升大型多模态模型的数学推理能力

本研究针对当前大型语言模型在数学推理方面的不足，提出了一个新的中文多模态数学数据集CMM-Math，以评估和提升大型多模态模型的数学推理能力。研究表明，尽管现有的最先进模型在CMM-Math数据集上表现尚可，但仍面临一些挑战，推动开发更强大的多模态数学模型的必要性。我们的Multimodal Mathematical LMM显示出显著提高数学推理能力的潜力。

Sep, 2024

CMM-Math：一个评估和增强大型多模态模型数学推理能力的中文多模态数学数据集

本研究针对当前中文多模态数学数据集的缺乏问题，提出了一种新的CMM-Math数据集，包含超过28,000个高质量样本，旨在评估和提升大型多模态模型的数学推理能力。通过分析，发现现有的先进模型在该数据集上的表现仍存在挑战，强调了在模型发展的进一步改进需求。

Sep, 2024