BriefGPT.xyz
Ask
alpha
关键词
rlhf model
搜索结果 - 1
奖励(不)一致性对 RLHF 的渗透影响
通过对奖励模型 (RM) 的一致性进行研究,本文提出了一种基于对比指令的策略来测量奖励模型的一致性,并提出了 ConvexDA 和 RewardFusion 两种技术来提高奖励模型的一致性,实验证明了更一致的 RM 对下游 RLHF 模型的
→
PDF
9 months ago
Prev
Next