数学推理的步骤级价值优化

Jun, 2024

Step-level Value Preference Optimization for Mathematical Reasoning

Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan

TL;DR我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法，它使用蒙特卡洛树搜索（MCTS）自动对多步推理进行步骤级别的偏好注释，并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为，从而提高大型语言模型的生成回报响应性能。实验证明，我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。

Abstract

direct preference optimization (DPO) using an implicit reward model has proven to be an effective alternative to reinforcement learning from human feedback (RLHF) for fine-tuning preference aligned →

direct preference optimization implicit reward model reinforcement learning from human feedback large language models multi-step reasoning tasks

发现论文，激发创造

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

借助基于树状偏好学习的大型语言模型推进过程验证

基于大型语言模型的树形偏好学习验证器 (Tree-PLV) 通过构建推理树并收集步骤级成对数据进行优先级训练，以更精确地评估完整的推理路径，从而实现在算术和常识推理任务上显著优于现有基准的性能提升。

Jun, 2024

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

SPO：多维偏好顺序对齐与隐式奖励建模

通过顺序优化方法，本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法，避免了显式奖励建模，并在人类偏好的多个维度上实现了对齐，实验证明其优于基线模型。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

超越一种偏好适用于所有情况：多目标直接偏好优化

多目标直接偏好优化（MODPO）是一种不依赖强化学习（RL）的算法，通过使用多个收集到的反馈和特定加权的收益模型，训练不同的语言模型以满足不同的偏好，以更高效地生成多样化的解决方案，使用了比 MORLHF 更少 3 倍的计算资源。

Oct, 2023