latent markov decision processes | BriefGPT

关键词latent markov decision processes

搜索结果 - 4

分离潜在马尔可夫决策过程中的近优学习与规划
我们研究了学习潜在马尔可夫决策过程（LMDPs）的计算和统计学方面。本文的主要目标是建立一个几乎精确的统计阈值，以实现有效学习所需的时间长度。在计算方面，我们证明，在最优策略下具有较弱的分离性假设时，存在一个几乎多项式的算法，时间复杂度与统
PDF24 days ago
潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优
PDFa month ago
ICML基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习
本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。
PDF2 years ago
潜在 MDPs 的强化学习：遗憾保证和下界
在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。
PDF3 years ago