Sep, 2024

无奖励推断的人类反馈强化学习的零阶策略梯度

TL;DR该研究解决了在人类反馈强化学习过程中,奖励推断面临的多个挑战,包括双重问题误设定和奖励模型评估困难。论文提出了两种无需奖励推断的强化学习算法,利用人类偏好估计本地价值函数差异,从而为更一般的强化学习问题提供了有效的解决方案。研究结果表明,无奖励推断的有效方法确实存在,从而可能对大规模语言模型的训练产生重大影响。