Mar, 2024

使用对比奖励提升来自人类反馈的强化学习

TL;DR本文通过引入一种名为对比奖励的奖励惩罚项,改进了奖励模型的效果,在强化学习中对奖励的不确定性进行了压制,提高了鲁棒性,鼓励基准改进,根据任务难度进行校准,并减少了 PPO 中的方差。经实证表明,对比奖励可以极大提高从人类反馈中强化学习的效果,无论是通过 GPTs 还是人类评价,我们的方法始终优于强基准。