Jan, 2013

搜索有限策略空间求解POMDPs

TL;DR本文研究部分可观察马尔可夫决策过程(POMDPs)的解决方案,探讨如何从有限状态自动机的限制集合中找到最佳策略,进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。