BriefGPT.xyz
Ask
alpha
关键词
long-horizon policies
搜索结果 - 1
无任务离线强化学习的潜在计划
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
PDF
2 years ago
Prev
Next