BriefGPT.xyz
Ask
alpha
关键词
subgoal reachability
搜索结果 - 1
双向可达层次强化学习与相互响应策略
通过互相共享信息和错误修正,我们提出了一种具有双向可达性的层次强化学习算法(BrHPO),该算法在长时间跨度任务中优于其他现有的层次强化学习方法,且具有更高的探索效率和鲁棒性。
PDF
10 days ago
Prev
Next