生成验证器：将奖励建模作为下一标记预测

Aug, 2024

生成验证器：将奖励建模作为下一标记预测

Generative Verifiers: Reward Modeling as Next-Token Prediction

Lunjun Zhang, Arian Hosseini, Hritik Bansal, Mehran Kazemi, Aviral Kumar...

TL;DR本研究针对现有验证器（奖励模型）主要采用判别分类器训练的方法，提出了一种新颖的生成验证器（GenRM），通过下一标记预测目标联合进行验证和解决方案生成。结果表明，在算法和小学数学推理任务中，GenRM相较于现有方法优势明显，解决率提高了16%-64%，并且在数据集规模、模型容量和推理时计算要求方面展现了良好的扩展性。

Abstract

Verifiers or reward models are often used to enhance the reasoning performance of Large Language Models (LLMs). A common approach is the Best-of-N method, where N candidate solutions generated by the LLM are ranked by a verifier, and the best one is selected. While LLM-based verifiers

发现论文，激发创造

训练验证程序员解决数学应用题

介绍一个8.5K高质量的语言多样的小学数学问题数据集GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用verifiers验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021

逐步奖励：作为推理导航器的步骤级奖励模型

研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果，提出了一种基于奖励模型的启发式贪婪搜索算法，与其他方法相比在数学推理和代码生成任务中表现出更好的结果，并展示了在推理任务中基于奖励模型的方法的鲁棒性。

Oct, 2023

V-STaR：自主学习推理器的验证器训练

通过使用DPO判断模型生成的正确和错误解，V-STaR提出了一种利用自我改进过程中生成的正确和错误解的方法，用于训练验证器，并在推理时从众多候选解中选择一种解，多次运行V-STaR可以逐渐提升推理能力和正确性，并在常见代码生成和数学推理基准中相较于现有的自我改进和验证方法提高了4％至17％的测试准确率。

Feb, 2024

推进具有偏好树的LLM推理通才

Eurus是一套针对推理进行优化的大型语言模型，通过基于Mistral-7B和CodeLlama-70B的微调，在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行12项测试对比，Eurus-70B在LeetCode上达到了33.3%的一次通过准确率，并且在TheoremQA上达到了32.6%，这两个具有挑战性的基准测试远远超过了现有开源模型13.3%以上的性能。Eurus的强大性能主要归功于UltraInteract，这是我们专门为复杂推理任务设计的大规模、高质量的对齐数据集，可用于监督微调和偏好学习。通过对偏好学习算法进行深入探究，我们发现某些已建立的偏好学习算法在推理任务中的适用性较差，相比其在一般对话中的有效性。受此启发，我们推导出了一种新颖的奖励建模目标，与UltraInteract结合使用可获得强大的奖励模型。

Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与GPT-4基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在4种不同类型的推理任务上评估了我们的方法，涵盖了共计9个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在9个数据集中的6个数据集中，优于最佳的N个采样方法。

Apr, 2024

好与坏的原因：朝着更好的数学验证器与自然语言反馈

通过引入步骤式自然语言反馈作为评估解决方案的正确性的合理标签，本文提出了一个自然语言反馈增强的数学验证器，在有效训练和高效推理方面构建自动生成的训练数据和两阶段训练范式。我们的实验表明，一个小的自然语言反馈集合（30k）可以显著提升验证器的性能，GSM8K准确度提高了1.6%（86.6% -> 88.2%），MATH提高了0.8%（37.8% -> 38.6%）。我们将很快发布用于复制的代码、数据和模型。

Jun, 2024

借助基于树状偏好学习的大型语言模型推进过程验证

基于大型语言模型的树形偏好学习验证器(Tree-PLV)通过构建推理树并收集步骤级成对数据进行优先级训练，以更精确地评估完整的推理路径，从而实现在算术和常识推理任务上显著优于现有基准的性能提升。

Jun, 2024

增强大型语言模型的数学推理能力的令牌监督价值模型

使用令牌级别监督和期望的累积奖励，我们设计了一种训练方案，以修正确定令牌级别推理路径的不足，并提出了基于减少未来正确性概率的累积奖励的实际制定方式，从而使令牌级别价值模型（TVM）在数学推理基准测试中胜过逐步验证器。

Jul, 2024

证明-验证游戏提高LLM输出的可读性

通过使用可读性逐渐训练小验证器以提高大型语言模型（LLMs）的可读性和输出，以便在解决小学数学问题时提供清晰且易于检查的推理，这是一种增加对LLMs输出的信心的方法。

Jul, 2024