May, 2024

对于多样化任务和模型规模的鲁棒学习的对称强化学习损失

TL;DR通过从有噪声数据中借鉴逆交叉熵(RCE)的方法将其适应于强化学习,定义了一种对称的 RL 损失,从而提高了 RL 训练的稳定性。在离散动作任务(Atari 游戏)和连续动作空间任务(MuJoCo 基准和 Box2D)中进行了实验,并通过改进 RLHF 任务的性能来验证对于大型语言模型使用 SPPO 的对称 RL 损失的好处,如 IMDB 正面情感和 TL;DR 摘要任务。