AAAIJan, 2020

部分可观察马尔可夫决策过程的基于点的模型检验方法

TL;DR提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。