Dec, 2023

具有马尔可夫噪声的双时间尺度线性随机逼近的紧限定时间界

TL;DR用马尔可夫噪声对线性二时间尺度随机逼近算法进行了收敛性分析,得到了该算法各种步长选择下的收敛行为,应用结果到 TDC 算法得到了比之前工作更好的收敛性样本复杂度,该结果还适用于确定各种强化学习算法的收敛行为,如带有 Polyak 平均的 TD 学习,GTD 和 GTD2。