BriefGPT.xyz
Oct, 2022
基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习
Horizon-Free Reinforcement Learning for Latent Markov Decision Processes
HTML
PDF
Runlong Zhou, Ruosong Wang, Simon S. Du
TL;DR
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Abstract
We study
regret minimization
for
reinforcement learning
(RL) in
latent markov decision processes
(LMDPs) with context in hindsight. We des
→