Feb, 2019

线性随机逼近和 TD 学习的有限时间误差界

TL;DR考虑由 Markovian 噪声驱动的线性随机逼近算法的动态特性,通过考虑适当选择的 Lyapunov 函数的漂移,获得常数步长算法的有限时间误差的二次矩的有限时间界限。我们还对逼近误差 2 范数的平方的矩进行了全面的处理。