IJCAINov, 2015

增量式截断最小二乘法

TL;DR本文介绍了一种低秩 LSTD 算法,该算法能更好地平衡计算效率和采样效率,使过去的样本高效地实现对最少二乘法时间差分(LSTD)的采样复杂度,同时实现近似 LSTD 的样本复杂度。我们在模拟中给出了关于截断低秩逼近所得解的模拟界限,这表明一个偏差 - 方差折衷需要依赖秩的选择。我们证明了该算法在基准任务和高维能量分配领域的策略评估中有效地平衡了计算复杂性和采样效率。