Jun, 2024
分离潜在马尔可夫决策过程中的近优学习与规划
Near-Optimal Learning and Planning in Separated Latent MDPs
TL;DR我们研究了学习潜在马尔可夫决策过程(LMDPs)的计算和统计学方面。本文的主要目标是建立一个几乎精确的统计阈值,以实现有效学习所需的时间长度。在计算方面,我们证明,在最优策略下具有较弱的分离性假设时,存在一个几乎多项式的算法,时间复杂度与统计阈值成比例。我们还基于指数时间假设,展示了一个近似的时间复杂度下界。