BriefGPT.xyz
Ask
alpha
关键词
contrastive rewards
搜索结果 - 1
使用对比奖励提升来自人类反馈的强化学习
本文通过引入一种名为对比奖励的奖励惩罚项,改进了奖励模型的效果,在强化学习中对奖励的不确定性进行了压制,提高了鲁棒性,鼓励基准改进,根据任务难度进行校准,并减少了 PPO 中的方差。经实证表明,对比奖励可以极大提高从人类反馈中强化学习的效果
→
PDF
4 months ago
Prev
Next