Jan, 2024
马尔可夫链中心极限定理的收敛速度及其在 TD 学习中的应用
Rates of Convergence in the Central Limit Theorem for Markov Chains, with an Application to TD Learning
R. Srikant
TL;DR使用 Stein's 方法证明向量值鞅差的非渐近中心极限定理,并使用泊松方程将结果推广到马尔可夫链的函数领域。然后证明这些结果可应用于建立基于平均的时序差分(TD)学习的非渐近中心极限定理。