ICMLFeb, 2018

强化学习中,行动相关基线的幻象

TL;DR通过对策略梯度估计器方差进行分解,发现在常见测试基准领域中,学习的状态 - 动作相关基线实际上并不降低方差,确认这一意外结果的同时,对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外,方差分解还突出了改进的领域,通过演示对典型值函数参数化的简单改变,可显著提高性能。