Jun, 2011

部分可观察马尔可夫决策过程的值函数逼近

TL;DR本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似(启发式)方法,研究其性质和关系,并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。