Jul, 2012

具有无限状态空间的马尔可夫决策过程度量

TL;DR本文提出了度量具有无限状态的马尔可夫决策过程(MDPs)中状态相似性的指标,包括具有连续状态空间的 MDPs。这样的指标为 MDPs 的同步关系提供了稳定的定量分析,适用于 MDP 逼近。我们展示了与我们的指标距离有关的贴现无限时域规划任务相关的最优价值函数连续变化的情况。