BriefGPT.xyz
Ask
alpha
关键词
transition dynamics model
搜索结果 - 1
ICLR
通过转换模型不一致性学习观测到的模仿
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
PDF
2 years ago
Prev
Next