Jun, 2019

使用马尔科夫跳跃线性系统理论表征时序差分学习算法的确切行为

TL;DR本文通过探讨强化学习中时序差分学习算法与 Markov 跳线性系统(MJLS)之间的关联,为时序差分学习算法的收敛性和稳定性提供了理论支持,并在 IID 和 Markov 噪声的两种情形下提供了 TD 学习算法收敛和表现的精确性和上下界分析。