Oct, 2022
基于线性函数逼近的时序差分学习的有限时间分析:尾平均和正则化
Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation
TL;DR本研究研究了结合尾平均的时序差分(TD)学习算法的有限时间行为。研究发现,尾平均的TD在不需要信息的情况下,可以在期望和高概率下以最优的$O(1/t)$速率收敛,我们提出和分析了一个增加了正则化的TD变量,结论表明正则化的TD对于具有病态特征的问题是有用的。