CMATH:你的语言模型能通过中国小学数学考试吗?
本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。
Mar, 2023
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
May, 2024
为了全面评估大型语言模型(LLMs)的数学推理能力,我们需要精心策划评估数据集,涵盖不同难度级别的各种数学概念和问题。为此,我们在本文中提出了 FineMath,一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念,并进一步划分为 17 类数学应用问题,从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验,并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。
Mar, 2024
本文探索使用 GPT-4 解决更复杂的数学问题,并评估了各种使用 GPT-4 的方法,包括作者提出的新的对话式解决框架 - MathChat。针对 MATH 数据集中的困难高中竞赛题进行了评估,结果表明所提出的对话式方法具有优势。
Jun, 2023
本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
LLaMA-2 7B 模型通过简单的方法扩展数据样本,证明了其出色的数学能力及可靠性,适用于 GSM8K 和 MATH 基准测试,并提供了关于不同推理复杂性和错误类型的扩展行为的见解。
Mar, 2024
我们引入了 SuperCLUE-Math6(SC-Math6),这是一个新的基准数据集,用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版,具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力,基于其在具有不同推理步骤的问题上的表现。对 12 个代表性中文模型的实验表明,推理水平存在明显的分层,顶级模型如 GPT-4 表现出优异性能。SC-Math6 填补了中文数学推理基准的空白,并提供了一个全面的测试平台来推进中文语言模型的智能化发展。
Jan, 2024
通过使用多种类型不同的语言,我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言,评估了大型语言模型在多语种环境下的推理能力,并提出了 MGSM 基准。我们发现,随着模型规模的增加,使用思维链提示解决 MGSM 问题的能力越来越强,即使在孟加拉语和斯瓦希里语等少数语言中,这些模型也具有非常强的多语种推理能力。最后,我们展示了语言模型的多语种推理能力扩展到其他任务,例如常识推理和上下文语义判断。
Oct, 2022
通过引入 CMExam 数据集,该研究在医学领域中解决了对大型语言模型进行评估的挑战,同时还通过对 CMExam 的深入分析,详细介绍了 LLMs 在中国医学中的表现和挑战。
Jun, 2023
大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算,并且能够在无数据泄露情况下实现几乎 100% 的准确度,超越了 GPT-4。此外,我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调,开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。
Sep, 2023