CMMaTH: 一个基于多模态的中文数学技能评估基准用于基础模型

Jun, 2024

CMMaTH: 一个基于多模态的中文数学技能评估基准用于基础模型

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models

Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Zhi-Long Ji, Jin-Feng Bai...

TL;DR我们提出了一个名为CMMaTH的中文多模态数学技能评估基准，包含23k个中小学多模态数学相关问题，构成迄今最大的中文多模态数学问题基准。我们构建了一个与CMMaTH数据集集成的开源工具GradeGPT，以便稳定、快速和免费地评估模型性能。

Abstract

Due to the rapid advancements in multimodal large language models, evaluating their multimodal mathematical capabilities continues to receive wide attention. Despite the datasets like MathVista proposed benchmark

发现论文，激发创造

Ape210K：一个大规模且模板丰富的数学应用题数据集

本文提供了一个规模和多样性较大的数学问题数据集，通过使用seq2seq模型并结合常识知识取得了不错的结果，在数学问题求解上具有不可替代的作用。

Sep, 2020

CMATH：你的语言模型能通过中国小学数学考试吗？

该研究提供了一个数据集，用于评估流行的大型语言模型在小学数学的能力，并发现GPT-4是唯一能够在所有六个小学年级取得成功的模型，但我们对其进行了测试后发现只有GPT-4在算术问题和推理方面具有鲁棒性，其他模型均不具备鲁棒性。

Jun, 2023

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

我们引入了SuperCLUE-Math6（SC-Math6），这是一个新的基准数据集，用于评估中文语言模型的数学推理能力。SC-Math6是GSM8K数据集的升级版，具有增强的难度、多样性和应用范围。它包含了2000多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力，基于其在具有不同推理步骤的问题上的表现。对12个代表性中文模型的实验表明，推理水平存在明显的分层，顶级模型如GPT-4表现出优异性能。SC-Math6填补了中文数学推理基准的空白，并提供了一个全面的测试平台来推进中文语言模型的智能化发展。

Jan, 2024

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的ConceptMath的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望ConceptMath能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了FineMath，一个用于评估中文LLMs的细粒度数学评估基准数据集。FineMath涵盖了小学数学教学的主要数学概念，并进一步划分为17类数学应用问题，从而能够深入分析LLMs的数学推理能力。所有17类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的LLMs上对FineMath进行了大量实验，并发现中文LLMs的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中MAmmoTH-13B表现出了最高的能力水平，成为解决NCERT数学问题的可靠基准。

Apr, 2024

MathBench：利用分层数学基准评估LLMs的理论和应用水平

通过MathBench新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

中文多模态数学数据集CMM-Math：评估与提升大型多模态模型的数学推理能力

本研究针对当前大型语言模型在数学推理方面的不足，提出了一个新的中文多模态数学数据集CMM-Math，以评估和提升大型多模态模型的数学推理能力。研究表明，尽管现有的最先进模型在CMM-Math数据集上表现尚可，但仍面临一些挑战，推动开发更强大的多模态数学模型的必要性。我们的Multimodal Mathematical LMM显示出显著提高数学推理能力的潜力。

Sep, 2024

CMM-Math：一个评估和增强大型多模态模型数学推理能力的中文多模态数学数据集

本研究针对当前中文多模态数学数据集的缺乏问题，提出了一种新的CMM-Math数据集，包含超过28,000个高质量样本，旨在评估和提升大型多模态模型的数学推理能力。通过分析，发现现有的先进模型在该数据集上的表现仍存在挑战，强调了在模型发展的进一步改进需求。

Sep, 2024