Jun, 2023
TD 收敛性:一个优化视角
TD Convergence: An Optimization Perspective
Kavosh Asadi, Shoham Sabach, Yao Liu, Omer Gottesman, Rasool Fakoor
TL;DR本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性 TD 设置中的二次损失,以证明 TD 的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了 TD 在强化学习中成功应用的理论解释。