Feb, 2024

加速逆强化学习与专家引导

TL;DR通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中,我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍,在 Ant-v2 上提高 2.6 倍,在 Hopper-v2 上提高 18 倍,在 Walker2d-v2 上提高 3.36 倍。