BriefGPT.xyz
May, 2018
稀疏奖励确定性 MDP 的无记忆精确解
Memoryless Exact Solutions for Deterministic MDPs with Sparse Rewards
HTML
PDF
Joshua R. Bertram, Peng Wei
TL;DR
该论文提出了一种算法,用于确定性连续马尔可夫决策过程,该算法能够精确计算出最优策略,并且不依赖于状态空间的大小。此算法的时间复杂度为$O(|R|^3×|A|^2)$,空间复杂度为$O(|R|×|A|)$,并且还提出了一种伴随算法。与值迭代的算法相比,在可处理的马尔可夫决策过程中,算法的操作成果得到了一致的验证。
Abstract
We propose an
algorithm
for deterministic continuous
markov decision processes
with
sparse rewards
that computes the
→