Nov, 2024

R3HF:奖励再分配以增强基于人类反馈的强化学习

TL;DR本研究解决了基于人类反馈的强化学习(RLHF)中奖励分配单一且稀疏的问题,提出了一种名为R3HF的奖励再分配方法,能够实现更细粒度的标记级奖励分配。研究结果表明,该方法通过评估每个标记对奖励模型输出的具体贡献,提高了语言模型的性能,展示了其有效性及优越性。