Aug, 2009

最优无偏值估计器及其与 LSTD、TD 和 MC 的关系

TL;DR通过推导最优无偏估值器(MVU)和与之相比较的三种估值器:时间差分学习(TD)、蒙特卡罗估算(MC)和最小二乘时间差分学习(LSTD),我们展示了 LSTD 仅在马尔科夫收益过程(MRP)为非循环过程时等同于 MVU 并在大多数循环 MRP 时存在偏差,同时实验证明了实现 Bellman 方程的估值器只有在特殊循环 MRP 中才能保持无偏性。