Feb, 2017

无重要性采样比率的多步非策略学习

TL;DR本文提出了一种基于时序差分学习更新的无需使用重要性采样比率来学习无政策的多步学习的算法。通过变化 TD 更新中的自举量来消除重要性采样比率,该算法使用了两个时间尺度的梯度 TD 更新以实现稳定性,而且该算法的表现优于现有算法。