CMATH：你的语言模型能通过中国小学数学考试吗？

Jun, 2023

CMATH：你的语言模型能通过中国小学数学考试吗？

CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

Tianwen Wei, Jian Luan, Wei Liu, Shuang Dong, Bin Wang

TL;DR该研究提供了一个数据集，用于评估流行的大型语言模型在小学数学的能力，并发现 GPT-4 是唯一能够在所有六个小学年级取得成功的模型，但我们对其进行了测试后发现只有 GPT-4 在算术问题和推理方面具有鲁棒性，其他模型均不具备鲁棒性。

Abstract

We present the chinese elementary school math word problems (CMATH) dataset, comprising 1.7k elementary school-level math word problems with detailed annotations, source from actual Chinese workbooks and exams. T

chinese elementary school math word problems elementary school-level large language models gpt-4 arithmetic

发现论文，激发创造

大型语言模型在算术任务中的表现如何？

本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。

Mar, 2023

关于小学算术的大型语言模型性能的仔细检查

大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功，但人们越来越担心其中的一部分性能实际上是由于数据集污染，而不是真正的推理能力。调查显示，许多模型可能已经部分记忆了基准测试的例子，导致在新的基准测试上准确度下降。

May, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了 FineMath，一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念，并进一步划分为 17 类数学应用问题，从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验，并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

挑战性数学问题求解的 GPT-4 实证研究

本文探索使用 GPT-4 解决更复杂的数学问题，并评估了各种使用 GPT-4 的方法，包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估，结果表明所提出的对话式方法具有优势。

Jun, 2023

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

常见七 B 语言模型已经具备强大的数学能力

LLaMA-2 7B 模型通过简单的方法扩展数据样本，证明了其出色的数学能力及可靠性，适用于 GSM8K 和 MATH 基准测试，并提供了关于不同推理复杂性和错误类型的扩展行为的见解。

Mar, 2024

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

我们引入了 SuperCLUE-Math6（SC-Math6），这是一个新的基准数据集，用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版，具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力，基于其在具有不同推理步骤的问题上的表现。对 12 个代表性中文模型的实验表明，推理水平存在明显的分层，顶级模型如 GPT-4 表现出优异性能。SC-Math6 填补了中文数学推理基准的空白，并提供了一个全面的测试平台来推进中文语言模型的智能化发展。

Jan, 2024

语言模型是多语言的思维链推理器

通过使用多种类型不同的语言，我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言，评估了大型语言模型在多语种环境下的推理能力，并提出了 MGSM 基准。我们发现，随着模型规模的增加，使用思维链提示解决 MGSM 问题的能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。最后，我们展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。

Oct, 2022

在 CMExam 上对大型语言模型进行基准测试 —— 一份综合的中文医学考试数据集

通过引入 CMExam 数据集，该研究在医学领域中解决了对大型语言模型进行评估的挑战，同时还通过对 CMExam 的深入分析，详细介绍了 LLMs 在中国医学中的表现和挑战。

Jun, 2023

GPT 能够在没有计算器的情况下解决数学问题

大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算，并且能够在无数据泄露情况下实现几乎 100% 的准确度，超越了 GPT-4。此外，我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调，开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。

Sep, 2023