Jan, 2013

基于梯度的强化学习的最优奖励基准线

TL;DR研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题,并提出将一个奖励基线纳入到学习系统中来降低差异,进而提高算法性能的方法。