Sep, 2023

奖励(不)一致性对RLHF的渗透影响

TL;DR通过对奖励模型(RM)的一致性进行研究,本文提出了一种基于对比指令的策略来测量奖励模型的一致性,并提出了ConvexDA和RewardFusion两种技术来提高奖励模型的一致性,实验证明了更一致的RM对下游RLHF模型的训练产生了更有用的响应。