Nov, 2017

通过返回加权密度估计进行分层策略搜索

TL;DR本文提出了一种基于密度估计和回报加权重要性采样的层次策略搜索方法(HPSDE),用于从多模态的回报函数中学习最佳策略,并成功应用于冗余机器人手臂的运动规划问题,实现了通过自动确定多种策略的数量和位置来减少超参数调节负担的效果。