Nov, 2014

关于函数逼近的 TD (0):集中界限和具有指数收敛的居中变量

TL;DR本文提出了针对使用线性函数逼近器的时间差分学习算法 TD (0) 的非渐近界限。同时,也指出了除非我们对政策的马尔科夫链的稳态分布(部分)具有知识,否则步长反比于迭代次数不能保证最优收敛率。此外,我们为迭代平均的 TD (0) 变体提供了界限,同时消除了步长的依赖性,并表现出最优的收敛速度。此外,我们还提出了一种包含置中序列的 TD (0) 线性逼近器变型,并证明它在期望下表现出指数级的收敛速度。最后,我们在两个人工实验中展示了这些界限的有用性。