Feb, 2013

用于计算马尔可夫决策过程近似最优解的模型简化技术

TL;DR介绍了一种新方法,用于解决具有非常大状态空间的隐式(分解式)马尔可夫决策流程(MDPs)。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的BMDP 以分析大型隐式MDPs。