CHAMP:一个用于深入分析 LLM 数学推理能力的竞赛级数据集
我们提出了 MathCAMPS 方法,用于合成高质量的数学问题,并通过 LLMs 将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-Consistency 和 Chain-of-Thought prompting 等技术,GPT4 的最佳表现仍不到 40%,错误的代数运算和缺乏相关领域知识是造成表现不佳的主要原因。作者希望这个基准数据集能够引导未来使用 Large Language Models 进行问题解决的研究。
May, 2023
本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可以用概念级准确率评估数学推理能力的不同细粒度。在基于我们的 ConceptMath 的基础上,我们评估了广泛范围的大型语言模型,并观察到现有的大型语言模型尽管在传统基准上具有高平均准确率,但在不同数学概念上存在显著的性能差异,甚至在最基本的概念上可能出现灾难性失误。此外,我们还介绍了一种高效的微调策略,以提高现有大型语言模型的弱点。最后,我们希望 ConceptMath 能够指导开发人员了解其模型的细粒度数学能力,并促进基础模型的进一步发展。
Feb, 2024
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性 LLM 进行了深入的基准研究,采用多种提示策略。结果表明,当前 LLM 的表现不尽如人意,综合得分仅为 35.80%。此外,通过详细的用户研究,我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
通过引入 Hint-before-Solving Prompting (HSP) 方法,将高质量提示应用于大型语言模型的解题过程,有效地提高了推理任务的准确性,并建立了 HSPMATH 数据集,提高了解题准确性。
Feb, 2024
评估大语言模型在 Codeforces 编程问题上的推理能力,发现了潜在的数据污染问题,并探索了多种方法来解决这些挑战,强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。
Dec, 2023
我们介绍了 CHARM,这是首个全面深入地评估大型语言模型(LLMs)在中文常识推理能力方面的基准。我们利用 5 个代表性的提示策略对 CHARM 进行评估,发现语言模型的语言定位和任务领域会影响提示策略的效果,这丰富了以前的研究结果。我们构建了紧密相连的推理和记忆任务,发现一些语言模型在记忆中文常识方面遇到困难,影响其推理能力,而其他模型在相似的记忆表现下呈现不同的推理能力。我们还评估了语言模型在无记忆推理能力上的表现,并分析了典型错误。我们的研究准确地确定了语言模型的优势和劣势,并为优化提供了明确的方向。它还可以为其他领域的研究提供参考。我们将在此 URL 发布 CHARM。
Mar, 2024