部分可观察马尔可夫决策过程的值函数逼近

Jun, 2011

部分可观察马尔可夫决策过程的值函数逼近

Value-Function Approximations for Partially Observable Markov Decision Processes

M. Hauskrecht

TL;DR本文介绍了部分可观测马尔可夫决策过程(POMDP)的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Abstract

partially observable markov decision processes (POMDPs) provide an elegant mathematical framework for modeling complex decision and planning problems in stochastic domains in which states of the system are observ