Sep, 2023

奖励(不)一致性对 RLHF 的渗透影响

TL;DR通过对奖励模型 (RM) 的一致性进行研究,本文提出了一种基于对比指令的策略来测量奖励模型的一致性,并提出了 ConvexDA 和 RewardFusion 两种技术来提高奖励模型的一致性,实验证明了更一致的 RM 对下游 RLHF 模型的训练产生了更有用的响应。