ICMLOct, 2022

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

TL;DR本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。