Jun, 2024

部分可观测马尔可夫决策过程中纯探索策略的局限性:观测信息熵的足够性

TL;DR在部分可观测性问题中,本文研究了将状态熵最大化的简单方法,并提供了对真实状态熵的逼近的上下界,以及如何利用观测函数的特性来计算观测熵的合理化的方法,从而提高性能和对 POMDP 环境下状态熵最大化的进展进行了理论性的描述。