Jun, 2024
潜在MDP中的强化学习是可行的:通过离线策略评估实现在线保证
RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy
Evaluation
TL;DR我们介绍了没有任何附加结构假设的Latent Markov Decision Processes (LMDPs)的第一个样本高效算法,并建立了新的离线评估引理和LMDPs的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题,特别是部分观测环境中,具有重要价值。