Apr, 2010

动态策略编程

TL;DR本文提出了一种新的策略迭代方法 —— 动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于 DPP 的算法表现出更好的性能。