CHAMP：一个用于深入分析 LLM 数学推理能力的竞赛级数据集

Jan, 2024

CHAMP：一个用于深入分析 LLM 数学推理能力的竞赛级数据集

CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities

Yujun Mao, Yoon Kim, Yilun Zhou

TL;DR我们提出了 CHAMP 数据集，该数据集包含高中数学竞赛问题，注释了概念和提示，使我们能够探索额外信息对模型性能的影响，发现模型生成的解决方案通常通过错误的推理步骤最终得出正确答案，并且大多数模型在验证这些解决方案时遇到困难。

Abstract

Recent large language models (LLMs) have shown indications of mathematical reasoning ability. However it has not been clear how they would fare on more challenging competition-level problems. And while self-generated verbalizations of intermediate reasoning steps (i.e., chain-of-though

large language models math problems champ dataset model-generated solutions side information

发现论文，激发创造

MathCAMPS: 从人类课程中细化合成数学问题

我们提出了 MathCAMPS 方法，用于合成高质量的数学问题，并通过 LLMs 将其转化为单词问题，以进一步探索数学问题解决和对话中的各种技能和能力。

Jul, 2024

LLM 们已经足够先进了吗？一个为大型语言模型提供挑战性问题解决基准的测试

本文介绍了一个新的基准数据集 JEEBench，用于评估 Large Language Models 的问题解决能力，其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估，发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术，GPT4 的最佳表现仍不到 40％，错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。

May, 2023

ConceptMath：大型语言模型数学推理的双语概念评估基准

本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上，我们评估了广泛范围的大型语言模型，并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率，但在不同数学概念上存在显著的性能差异，甚至在最基本的概念上可能出现灾难性失误。此外，我们还介绍了一种高效的微调策略，以提高现有大型语言模型的弱点。最后，我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力，并促进基础模型的进一步发展。

Feb, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

提示求解之前的线索引导：指导 LLMs 有效利用编码知识

通过引入 Hint-before-Solving Prompting (HSP) 方法，将高质量提示应用于大型语言模型的解题过程，有效地提高了推理任务的准确性，并建立了 HSPMATH 数据集，提高了解题准确性。

Feb, 2024

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

基于 LLMs 的中国常识推理基准评估：从中国特定性到推理记忆相关性

我们介绍了 CHARM，这是首个全面深入地评估大型语言模型（LLMs）在中文常识推理能力方面的基准。我们利用 5 个代表性的提示策略对 CHARM 进行评估，发现语言模型的语言定位和任务领域会影响提示策略的效果，这丰富了以前的研究结果。我们构建了紧密相连的推理和记忆任务，发现一些语言模型在记忆中文常识方面遇到困难，影响其推理能力，而其他模型在相似的记忆表现下呈现不同的推理能力。我们还评估了语言模型在无记忆推理能力上的表现，并分析了典型错误。我们的研究准确地确定了语言模型的优势和劣势，并为优化提供了明确的方向。它还可以为其他领域的研究提供参考。我们将在此 URL 发布 CHARM。

Mar, 2024