May, 2024
POMDP 中最优奖励应观察什么?
What should be observed for optimal reward in POMDPs?
Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja
TL;DR针对部分可观察的马尔可夫决策问题 (POMDPs),本文研究了一种新颖的最优可观测性问题 (OOP):如何在固定预算下选择一种代理人的传感器,使其达到预期目标。研究表明该问题在一般情况下是不可判定的,而考虑位置策略时是可判定的。我们提出了两种算法解决可判定的 OOP 问题:一种基于 M 的潜在马尔可夫决策过程的最优策略,另一种基于 SMT 的参数合成。我们对 POMDP 文献中的典型示例的变体进行了实验,并获得了有希望的结果。