May, 2018

稀疏奖励确定性 MDP 的无记忆精确解

TL;DR该论文提出了一种算法,用于确定性连续马尔可夫决策过程,该算法能够精确计算出最优策略,并且不依赖于状态空间的大小。此算法的时间复杂度为$O(|R|^3×|A|^2)$,空间复杂度为$O(|R|×|A|)$,并且还提出了一种伴随算法。与值迭代的算法相比,在可处理的马尔可夫决策过程中,算法的操作成果得到了一致的验证。