Mar, 2024

递归双升 POMDP 规划中处理近视限制

TL;DR在这项工作中,我们介绍了一种使用拉格朗日引导的蒙特卡洛树搜索和全局双上升来解决大规模约束部分可观察的马尔可夫决策过程(CPOMDPs)在线问题的方法。我们展示了全局双参数能导致在探索阶段产生短视的动作选择,从而最终导致次优的决策。为了解决这个问题,我们引入了依赖于历史的双变量,用于指导局部动作选择,并通过递归双上升进行优化。我们通过在一个示例和两个大型CPOMDPs上的实证比较来展示我们方法的性能,证明了改进的探索和更安全的结果。