BriefGPT.xyz
Ask
alpha
关键词
regularized relevance reward
搜索结果 - 1
无偏好的对齐学习与正则化相关回报
学习人类偏好被认为是将大型语言模型与人类价值观保持一致的关键,然而,与普遍看法相反,我们的初步研究发现,在人类偏好数据集训练的奖励模型倾向于给长期离题的回复比给短期主题相关的回复更高的分数。受此观察的启发,我们探索了一种无偏好的方法,利用
→
PDF
5 months ago
Prev
Next