BriefGPT.xyz
Ask
alpha
关键词
bayesian reward model
搜索结果 - 1
LLM 对齐的贝叶斯奖励模型
为了确保大型语言模型的回复是有用且无毒的,通常我们会在人类偏好数据上对奖励模型进行微调。然后,我们选择具有高奖励的策略回复(最佳 n 采样),或者进一步优化策略以生成具有高奖励的回复(从人类反馈中进行强化学习)。然而,这个过程容易受到奖励过
→
PDF
5 months ago
Prev
Next