Oct, 2010

预测状态临时差异学习

TL;DR本文介绍了一种新的用于价值函数逼近的方法,它将线性时间差分强化学习与子空间识别相结合,并使用一个新的算法Predictive State Temporal Difference(PSTD) learning。该方法可以将含有大量特征的状态向量进行线性投影,得到Preditive State向量,同时使用Bellman递归方法对其价值函数进行估计。我们研究了PSTD方法的RL和SSID的建立联系,证明了PSTD的统计意义,并在一个困难的最优停止问题上展示了其潜力。