Nov, 2010

计算时间差异的定点还是最小化贝尔曼残差?统一的斜投影视角

TL;DR研究了马尔可夫决策过程情景下政策价值函数的线性逼近的投影方法。分别考虑了一步时序差分计算(TD(0))和Bellman残差(BR)最小化的两种流行方法,并描述了它们的性能优劣。最终,提出了一个统一的观点,揭示了零部件投影在Bellman等式上的作用。