Sep, 2011

大规模 POMDP 的即时点估计近似

TL;DR介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程,该策略通过选择信息信念点提高了算法效率,同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。