BriefGPT.xyz
大模型
Ask
alpha
关键词
rlhf outputs
搜索结果 - 1
提高基于人类反馈的强化学习效果的高效奖励模型集成
采用奖励集成方法,我们研究如何改进 Reinforcement Learning from Human Feedback (RLHF) 模型对人类价值观的对齐效果,通过使用多个大型语言模型的奖励模型集成,提高了 RLHF 输出的对齐性能。
PDF
5 months ago
Prev
Next