AAAIJan, 2018

强化学习的预期策略梯度

TL;DR提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。