数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs

Dec, 2023

数学牧人：一种无需标签的逐步验证器，用于数学推理中的 LLMs

Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning

Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai...

TL;DRMath-Shepherd 是一种创新的过程导向数学验证器，使用自动生成的过程级监督数据进行训练，通过对 LLM 的输出逐步赋予奖励分数来解决复杂多步骤数学问题，指导一系列开源 LLMs 取得了非凡的性能，并在自洽性方法和其他验证模型方面表现优异，我们相信自动过程监督对 LLM 的未来演进具有重要潜力。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks. However, even the most advanced open-source LLMs, such as the LLaMA family models, still face challenges when it comes to accurately solving complex multi-step →

large language models mathematical problems math-shepherd training process supervision

发现论文，激发创造

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

DeepSeek-Prover: 通过大规模合成数据推进 LLMs 中的定理证明

基于大规模合成数据，使用 Lean 4 proof 数据生成方法，我们的模型在定理生成和解决题目方面取得了卓越的成果，证明了合成数据对提高 LLMs 中的定理证明能力的潜力。

May, 2024

VerityMath: 自校验实现的数学推理与单位一致性的推动

通过定义单位并确保在数学运算过程中单位的一致性，我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs（UCPs）为每个问题开发了一个带有单位规范和单位验证程序的数据集，并借助 UCPs 对 Code Llama（7B）模型进行了微调，从而产生了 VerityMath，并展示了我们的初步研究结果。

Nov, 2023

通过自动流程监督来改善语言模型中的数学推理

我们提出了一种新颖的分而治之式蒙特卡洛树搜索（MCTS）算法 OmegaPRM，用于有效地收集高质量的过程监督数据，进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率，相较于现有方法，我们的方法在财务和计算上都具有成本效益。

Jun, 2024

研究 LLM 对数学问题的鲁棒性

提出了一种提示框架，通过添加无关的变量生成数学应用问题的对抗性变体，用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明，对抗性训练实例的微调提高了对抗性数学应用问题的性能，并提高了识别相关数据进行推理的能力。然而，大型语言模型在面对对抗性信息时仍然存在困难，导致性能下降。

May, 2024

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024