BriefGPT.xyz
Ask
alpha
关键词
improving policies
搜索结果 - 1
面向目标导向规划的分治蒙特卡罗树搜索
提出了一种名为 DC-MCTS 的计划算法,用于解决目标导向的强化学习问题,该算法通过给出中间子目标来逐步划分初始任务,并独立递归地解决更简单的任务,从而实现改进策略, 使规划顺序具有灵活性,得到了在格子世界和各种连续控制环境中的强大表现。
PDF
4 years ago
Prev
Next