IJCAIMay, 2018

二阶优势信息的策略优化

TL;DR本文提出了一种基于控制变量和 Rao-Blackwell 定理的策略优化方法,将其融合到一个统一的框架中,以降低高维连续控制任务中的策略梯度估计器方差,并成功将其应用于高维综合设置和 OpenAI Gym 的 MuJoCo 连续控制任务中。