Jun, 2024

无折扣 POMDP 中带有可达性目标的声音启发搜索值迭代

TL;DR该研究论文探讨了部分可观测马尔可夫决策过程(POMDPs)中的最大可达性概率问题(MRPP),研究了一种基于点估计方法和基于试探性启发式搜索的新算法,解决了处理无限时域问题中循环的问题,并在实验评估中表现出优越性。