May, 2014

LSTD ($λ$) 的收敛速率和误差界

TL;DR本文考虑 LSTD (λ) 算法,推导出了任意 λ 及 β-mixing 条件下该算法收敛速率的高概率估计及误差的高概率界,探究了 λ 值选择对线性空间质量和样本数的影响。