Sep, 2024

后验奖励校准:长度偏见的案例研究

TL;DR本研究解决了在大语言模型中应用人类反馈强化学习时,奖励模型可能因训练数据中的谬误相关性而导致的偏见问题,尤其是长度偏见。我们提出了一种后验奖励校准的方法,能够在不增加数据和训练的情况下,校正这些偏见,并通过局部加权回归方法进一步增强了这一方法的通用性和鲁棒性。实验结果显示,该方法在不同设置下均显著提升了奖励模型的表现和与人类偏好的对齐效果。