Jun, 2023

TD 收敛性:一个优化视角

TL;DR本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应用的理论解释。