Oct, 2023
时差学习的有限样本分析
Finite-Sample Analysis of the Temporal Difference Learning
Sergey Samsonov, Daniil Tiapkin, Alexey Naumov, Eric Moulines
TL;DR评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。