ICLRJan, 2020

方差缩减时序差分学习的重新分析

TL;DR本文介绍了 variance reduced TD(VRTD)算法及其在非渐进情况下演化的方向收敛性和方差减少性,证明了 VRTD 具有线性收敛速度,在 Markov 采样的条件下能够显著降低方差误差和偏差误差。