Nov, 2013

经验动态规划

TL;DR本文提出了用于马尔可夫决策过程的经验动态规划算法,并介绍了概率不变点的概念和收敛分析的随机优势框架。实验结果表明,这些算法可以比随机逼近算法更快地收敛。