Jan, 2024

马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用

TL;DR使用 Stein's 方法证明向量值鞅差的非渐近中心极限定理,并使用泊松方程将结果推广到马尔可夫链的函数领域。然后证明这些结果可应用于建立基于平均的时序差分(TD)学习的非渐近中心极限定理。