Mar, 2024

TD 学习与线性函数逼近的简单有限时间分析

TL;DRTD 学习在马尔可夫采样下,通过线性函数逼近存在有限时间收敛性的研究证明。通过新颖的两步论证方法,我们证明了在常数步长和标准选择下,TD 学习生成的迭代在期望上保持统一有界。这种方法大大简化了现有证明,并推测我们归纳证明技术将在更复杂的随机逼近算法分析中找到应用。