BriefGPT.xyz
Nov, 2017
通过返回加权密度估计进行分层策略搜索
Hierarchical Policy Search via Return-Weighted Density Estimation
HTML
PDF
Takayuki Osa, Masashi Sugiyama
TL;DR
本文提出了一种基于密度估计和回报加权重要性采样的层次策略搜索方法(HPSDE),用于从多模态的回报函数中学习最佳策略,并成功应用于冗余机器人手臂的运动规划问题,实现了通过自动确定多种策略的数量和位置来减少超参数调节负担的效果。
Abstract
Learning an optimal policy from a
multi-modal reward function
is a challenging problem in
reinforcement learning
(RL). Hierarchical RL (HRL) tackles this problem by learning a hierarchical policy, where multiple
→