Apr, 2024

REBEL: 通过回归相对奖励实现强化学习

TL;DRREBEL 是一种极简的强化学习算法,通过直接策略参数化在两个 prompt 完成之间进行相对奖励的回归,以更轻量级的实现方式解决了生成模型的策略优化问题,理论上证明了基本强化学习算法如自然策略梯度可以看作 REBEL 的变种,从而在强化学习领域具有出色的收敛性和样本复杂度的理论保证,同时 REBEL 也能清晰地整合离线数据并处理实践中常见的非传递性偏好,经验证明,REBEL 在语言建模和图像生成方面提供了更加统一的方法,并且与 PPO 和 DPO 相比具有更强或类似的性能,且实现更简单和计算可行。