BriefGPT.xyz
Ask
alpha
关键词
mujoco locomotion tasks
搜索结果 - 2
针对离线强化学习的轻度限制评估策略
本研究提出了一种轻度限制的评估策略 (MCEP),用于测试时推断,并基于 TD3-BC 和 AWAC 算法进行实例化,在 MuJoCo 运动任务上取得了竞争性结果。
PDF
a year ago
ICLR
通过转换模型不一致性学习观测到的模仿
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
PDF
2 years ago
Prev
Next