BriefGPT.xyz
大模型
Ask
alpha
关键词
preference differences
搜索结果 - 1
探索奖励差距对偏好模型性能的影响
从人类反馈中进行强化学习(RLHF)是一种广泛使用的语言模型训练框架。我们的研究发现,使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时,往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距,我们的研究引入了一种新
→
PDF
3 months ago
Prev
Next