May, 2024

POMDP 中最优奖励应观察什么?

TL;DR针对部分可观察的马尔可夫决策问题 (POMDPs),本文研究了一种新颖的最优可观测性问题 (OOP):如何在固定预算下选择一种代理人的传感器,使其达到预期目标。研究表明该问题在一般情况下是不可判定的,而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题:一种基于 M 的潜在马尔可夫决策过程的最优策略,另一种基于 SMT 的参数合成。我们对 POMDP 文献中的典型示例的变体进行了实验,并获得了有希望的结果。