数学牧人:一种无需标签的逐步验证器,用于数学推理中的 LLMs
利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号,训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明,采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。
May, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
Feb, 2024
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
基于大规模合成数据,使用 Lean 4 proof 数据生成方法,我们的模型在定理生成和解决题目方面取得了卓越的成果,证明了合成数据对提高 LLMs 中的定理证明能力的潜力。
May, 2024
通过定义单位并确保在数学运算过程中单位的一致性,我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs(UCPs)为每个问题开发了一个带有单位规范和单位验证程序的数据集,并借助 UCPs 对 Code Llama(7B)模型进行了微调,从而产生了 VerityMath,并展示了我们的初步研究结果。
Nov, 2023
我们提出了一种新颖的分而治之式蒙特卡洛树搜索(MCTS)算法 OmegaPRM,用于有效地收集高质量的过程监督数据,进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率,相较于现有方法,我们的方法在财务和计算上都具有成本效益。
Jun, 2024
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面对对抗性信息时仍然存在困难,导致性能下降。
May, 2024
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
通过 MathBench 新的基准测试,我们能够全面评估大型语言模型在数学能力方面的表现,首次提供了一个多维度视角,从基础算术到大学数学的不同阶段评估模型的能力,旨在提高对大型语言模型在数学能力方面的评估,为其知识水平和问题解决技能提供更深入的理解。
May, 2024