关键词implicit reward model
搜索结果 - 2
  • 数学推理的步骤级价值优化
    PDF20 days ago
  • 使用 DPO 隐式奖励进行自助式语言模型训练
    PDF22 days ago
Prev
Next