ICLROct, 2017

Stein 恒等式在策略优化中的基于行动的控制变量

TL;DR本研究提出了一种控制变量方法,通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题,实验证明该方法显著提高了最先进的策略梯度方法的样本效率。