Oct, 2022

基于线性函数逼近的时序差分学习的有限时间分析:尾平均和正则化

TL;DR本研究研究了结合尾平均的时序差分(TD)学习算法的有限时间行为。研究发现,尾平均的 TD 在不需要信息的情况下,可以在期望和高概率下以最优的 $O (1/t)$ 速率收敛,我们提出和分析了一个增加了正则化的 TD 变量,结论表明正则化的 TD 对于具有病态特征的问题是有用的。