Jan, 2014

用蒙特卡罗抽样方法逼近交互式 POMDP 模型

TL;DR本文讨论利用基于粒子滤波算法的互动蒙特卡洛树搜索算法来解决复杂互动式部分可观测 Markov 决策过程 (I-POMDPs) 中的信仰空间复杂度问题以及在构建前向搜索树时使用 “采样可能性最大的观测” 这一补充方法来缓解策略空间的复杂度,这两种方法结合使用可以有效提高 POMDPs 的解决效率和准确度,经过实验验证效果显著。