ICLRMar, 2018
针对行动相关分解基线的策略梯度方差缩减
Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines
Cathy Wu, Aravind Rajeswaran, Yan Duan, Vikash Kumar, Alexandre M Bayen...
TL;DR本研究提出了一种无偏差的基于动作的基线方法,该方法可以减少深度增强学习中梯度估计的高方差问题,最终实现高维控制问题的策略梯度算法。此外,还证明了该方法的有效性并扩展到部分观察和多智能体任务。