Apr, 2020

面向目标导向规划的分治蒙特卡罗树搜索

TL;DR提出了一种名为 DC-MCTS 的计划算法,用于解决目标导向的强化学习问题,该算法通过给出中间子目标来逐步划分初始任务,并独立递归地解决更简单的任务,从而实现改进策略, 使规划顺序具有灵活性,得到了在格子世界和各种连续控制环境中的强大表现。