Jun, 2013

关于某些策略搜索动态规划算法的性能界限

TL;DR本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题,并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证,同时提出了Non-Stationary Direct Policy Iteration算法,并证明其时间复杂度类似于DPI,性能保证好于DPI,且与CPI相当。