Jul, 2023

一种仅使用一个步长的新渐变 TD 算法:使用 $L$-$λ$ 平滑性进行收敛速率分析

TL;DR本文介绍了一种名为 Impression GTD 的全新 GTD 算法,通过最小化期望 TD 更新的范数目标实现单时间尺度,并证明该算法的收敛速度至少为 O (1/t),甚至更快。同时,与现有的 GTD 算法相比,该算法在在线学习和离线学习问题中表现更快,具有比较稳定的步长范围。