SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

Jan, 2024

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese

Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao

TL;DR我们引入了 SuperCLUE-Math6（SC-Math6），这是一个新的基准数据集，用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版，具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力，基于其在具有不同推理步骤的问题上的表现。对 12 个代表性中文模型的实验表明，推理水平存在明显的分层，顶级模型如 GPT-4 表现出优异性能。SC-Math6 填补了中文数学推理基准的空白，并提供了一个全面的测试平台来推进中文语言模型的智能化发展。

Abstract

We introduce superclue-math6(SC-Math6), a new benchmark dataset to evaluate the mathematical reasoning abilities of chinese language models

superclue-math6 mathematical reasoning abilities chinese language models multi-step reasoning chinese mathematical reasoning benchmarks

发现论文，激发创造

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

超级 CLUE-Fin：对中文金融 LLM 进行多样化金融任务和应用的分级细粒度分析

SuperCLUE-Fin 是专为中文金融大型语言模型（FLMs）设计的评估框架，通过六个金融应用领域和 25 个专业任务对 FLMs 进行评估，包括合规性，风险管理和投资分析等理论知识和实际应用。SC-Fin 可帮助改善 FLMs 在中国金融领域的性能和可用性，推动人工智能在这一领域的发展和负责任的应用。

Apr, 2024

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了 FineMath，一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖了小学数学教学的主要数学概念，并进一步划分为 17 类数学应用问题，从而能够深入分析 LLMs 的数学推理能力。所有 17 类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的 LLMs 上对 FineMath 进行了大量实验，并发现中文 LLMs 的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

CMATH：你的语言模型能通过中国小学数学考试吗？

该研究提供了一个数据集，用于评估流行的大型语言模型在小学数学的能力，并发现 GPT-4 是唯一能够在所有六个小学年级取得成功的模型，但我们对其进行了测试后发现只有 GPT-4 在算术问题和推理方面具有鲁棒性，其他模型均不具备鲁棒性。

Jun, 2023

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

语言模型是多语言的思维链推理器

通过使用多种类型不同的语言，我们通过手动将 GSM8K 数据集中的 250 个小学数学问题翻译成十种不同的语言，评估了大型语言模型在多语种环境下的推理能力，并提出了 MGSM 基准。我们发现，随着模型规模的增加，使用思维链提示解决 MGSM 问题的能力越来越强，即使在孟加拉语和斯瓦希里语等少数语言中，这些模型也具有非常强的多语种推理能力。最后，我们展示了语言模型的多语种推理能力扩展到其他任务，例如常识推理和上下文语义判断。

Oct, 2022

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023