ICMLFeb, 2018
强化学习中,行动相关基线的幻象
The Mirage of Action-Dependent Baselines in Reinforcement Learning
George Tucker, Surya Bhupatiraju, Shixiang Gu, Richard E. Turner, Zoubin Ghahramani...
TL;DR通过对策略梯度估计器方差进行分解,发现在常见测试基准领域中,学习的状态 - 动作相关基线实际上并不降低方差,确认这一意外结果的同时,对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外,方差分解还突出了改进的领域,通过演示对典型值函数参数化的简单改变,可显著提高性能。