数学推理的步骤级价值优化
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验证和逐步自我评估,不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明,我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外,我们的研究还深入探讨了训练和推理计算的权衡关系,为我们的方法如何有效地提高性能提供了见解。
May, 2024
我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法,它将每个推理步骤作为单位进行优化,而不是对答案进行整体评估。通过构建 Step-DPO 的数据集,我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效,我们的发现表明,只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤,即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是,将 Step-DPO 应用于 Qwen2-72B-Instruct 时,在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数,超过了一系列闭源模型,包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。
Jun, 2024
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
May, 2023
通过直接优化收集到的经验轨迹,我们提出一个基于规划的推理学习框架,以解决大型语言模型在复杂推理任务中出现的问题,并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。
Feb, 2024
基于大型语言模型的树形偏好学习验证器 (Tree-PLV) 通过构建推理树并收集步骤级成对数据进行优先级训练,以更精确地评估完整的推理路径,从而实现在算术和常识推理任务上显著优于现有基准的性能提升。
Jun, 2024
引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。
May, 2024
通过顺序优化方法,本研究提出了一种解决大规模语言模型对齐人类偏好多维度问题的方法,避免了显式奖励建模,并在人类偏好的多个维度上实现了对齐,实验证明其优于基线模型。
May, 2024
大型语言模型的对齐问题是一个复杂的挑战,本文提出了混合偏好优化(HPO)方法,通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化,同时在各种具有挑战性的基准和模型规模上保持了对齐性能。
May, 2024
多目标直接偏好优化(MODPO)是一种不依赖强化学习(RL)的算法,通过使用多个收集到的反馈和特定加权的收益模型,训练不同的语言模型以满足不同的偏好,以更高效地生成多样化的解决方案,使用了比 MORLHF 更少 3 倍的计算资源。
Oct, 2023