Apr, 2010

动态策略编程

TL;DR本文提出了一种新的策略迭代方法——动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于DPP的算法表现出更好的性能。