Dec, 2023

REBEL: 强化学习人类反馈中的回报过度优化问题的基于正则化的解决方案

TL;DR通过使用REBEL算法,我们提出了一种基于人类反馈的样本高效奖励正则化的机器人强化学习方法,并通过实验证明,REBEL方法在样本效率方面比PEBBLE和PEBBLE+SURF等现有方法取得了70%的提升。