Feb, 2023

间歇可观察的马尔科夫决策过程

TL;DR本文研究了在不稳定状态信息下的MDP,提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。