Jun, 2024
无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives
Qi Heng Ho, Martin S. Feather, Federico Rossi, Zachary N. Sunberg, Morteza Lahijanian
TL;DR该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。