ICLRMar, 2018

针对行动相关分解基线的策略梯度方差缩减

TL;DR本研究提出了一种无偏差的基于动作的基线方法,该方法可以减少深度增强学习中梯度估计的高方差问题,最终实现高维控制问题的策略梯度算法。此外,还证明了该方法的有效性并扩展到部分观察和多智能体任务。