BriefGPT.xyz
Ask
alpha
关键词
q value bootstrapping
搜索结果 - 1
加速逆强化学习与专家引导
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中
→
PDF
5 months ago
Prev
Next