BriefGPT.xyz
Ask
alpha
关键词
implicit reward model
搜索结果 - 2
数学推理的步骤级价值优化
我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐
→
PDF
20 days ago
使用 DPO 隐式奖励进行自助式语言模型训练
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
PDF
22 days ago
Prev
Next