May, 2023

超越奖励:离线引导偏好的策略优化

TL;DR该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。