ICMLAug, 2020

减少批量时间差分学习中的采样误差

TL;DR本文针对 TD (0) 算法在批量设置下的不足之处,提出一种基于重要性采样和估算经验分布的改进算法 ——PSEC-TD (0),并在三个价值函数学习任务上进行实证评估,结果显示 PSEC-TD (0) 比 TD (0) 具有更低的均方误差,是一种更高效的估计算法。