Jun, 2023

TD收敛性:一个优化视角

TL;DR本研究探讨了时间差分(TD)学习算法的收敛行为,通过分析我们的发现,我们将其形式化应用于线性TD设置中的二次损失,以证明TD的收敛取决于两种力量的相互作用,并扩展到比线性逼近和平方损失更广泛的设置中,提供了TD在强化学习中成功应用的理论解释。