Jun, 2019

基于模型的规划与策略网络的探索

TL;DR该研究提出了一种新的基于模型的策略规划(POPLIN)算法,将策略网络与在线规划相结合,通过神经网络在每个时间步骤中优化动作规划,并通过 MuJoCo 基准环境验证其取得了业界领先的性能表现。