增强大型语言模型的数学推理能力的令牌监督价值模型

Jul, 2024

增强大型语言模型的数学推理能力的令牌监督价值模型

Token-Supervised Value Models for Enhancing Mathematical Reasoning Capabilities of Large Language Models

Jung Hyun Lee, June Yong Yang, Byeongho Heo, Dongyoon Han, Kang Min Yoo

TL;DR使用令牌级别监督和期望的累积奖励，我们设计了一种训练方案，以修正确定令牌级别推理路径的不足，并提出了基于减少未来正确性概率的累积奖励的实际制定方式，从而使令牌级别价值模型（TVM）在数学推理基准测试中胜过逐步验证器。

Abstract

large language models (LLMs) have demonstrated impressive problem-solving capabilities in mathematics through step-by-step reasoning chains. However, they are susceptible to reasoning errors that impact the quali

发现论文，激发创造

训练验证程序员解决数学应用题

介绍一个8.5K高质量的语言多样的小学数学问题数据集GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用verifiers验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由LLMs生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了LLMs的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现LLMs能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了“规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

数学推理中的规划行为监督验证器

利用结果监督进行训练的Outcome-supervision Value Model(OVM)通过优先考虑能够导致准确结论的步骤，而非每一步的正确性，从而将多步推理转变为一种规划问题，提供了一种高效而直观的解决方法。在两个多步数学推理数据集GSM8K和Game of 24上的实验表明，OVM模型取得了卓越的性能，特别是在GSM8K中，OVM-7B模型在LLMs中达到了13B参数的最新成果。这些发现为多步推理任务中训练验证器的结果监督作用提供了新的视角，并为其在规划价值估计中的优势提供了理论依据。

Nov, 2023

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为SYRELM的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的LM生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用Python代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在GSM8K和MATH数据集上显著提升了7B参数LLM性能。我们致力于推进LLMs中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

好与坏的原因：朝着更好的数学验证器与自然语言反馈

通过引入步骤式自然语言反馈作为评估解决方案的正确性的合理标签，本文提出了一个自然语言反馈增强的数学验证器，在有效训练和高效推理方面构建自动生成的训练数据和两阶段训练范式。我们的实验表明，一个小的自然语言反馈集合（30k）可以显著提升验证器的性能，GSM8K准确度提高了1.6%（86.6% -> 88.2%），MATH提高了0.8%（37.8% -> 38.6%）。我们将很快发布用于复制的代码、数据和模型。

Jun, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

生成验证器：将奖励建模作为下一标记预测

本研究针对现有验证器（奖励模型）主要采用判别分类器训练的方法，提出了一种新颖的生成验证器（GenRM），通过下一标记预测目标联合进行验证和解决方案生成。结果表明，在算法和小学数学推理任务中，GenRM相较于现有方法优势明显，解决率提高了16%-64%，并且在数据集规模、模型容量和推理时计算要求方面展现了良好的扩展性。

Aug, 2024