Oct, 2018

用策略梯度学习经典规划策略

TL;DR引入一种新的搜索框架来解决规划问题,该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用,使用可训练的随机策略来选择搜索方法,进而优化搜索策略,实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。