Jun, 2024

最优奖励标注:连接离线偏好与基于奖励的强化学习

TL;DR提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线 RL 算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。