Jun, 2013

关于某些策略搜索动态规划算法的性能界限

TL;DR本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题,并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative Policy Iteration 的性能保证,同时提出了 Non-Stationary Direct Policy Iteration 算法,并证明其时间复杂度类似于 DPI,性能保证好于 DPI,且与 CPI 相当。