Jun, 2023

带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性

TL;DR本文研究部分可观察马尔科夫决策过程(POMDP),发现除非我们拥有完整的后见状态信息,否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解,但有部分 POMDP 分类情况下,其状态信息是足够的,本文提出了新的算法并证实这些算法是近似最优解。