Jun, 2013
关于某些策略搜索动态规划算法的性能界限
On the Performance Bounds of some Policy Search Dynamic Programming
Algorithms
TL;DR本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题,并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证,同时提出了Non-Stationary Direct Policy Iteration算法,并证明其时间复杂度类似于DPI,性能保证好于DPI,且与CPI相当。