AAAIDec, 2023

模型不确定性下的稳健主动测量

TL;DR在序列决策中,部分可观测性和不确定性是常见问题,对于使用马尔可夫决策过程(MDPs)等形式模型造成阻碍。然而,在实践中,代理可以使用昂贵的传感器来测量环境并通过收集信息来解决部分可观测性问题。此外,不精确的转移函数可以捕捉模型不确定性。我们将这些概念结合起来,扩展 MDPs 为鲁棒主动测量 MDPs (RAM-MDPs)。我们提出了一种用于高效解决 RAM-MDPs 的主动测量启发式算法,并展示了模型不确定性可以让代理方采取更少的测量,这是违反直觉的。同时,我们提出了一种方法来抵消这种行为,只产生有限的额外成本。我们通过与几种基准方法进行实证比较,并展示了其卓越的可伸缩性和性能。