BriefGPT.xyz
Ask
alpha
关键词
latent markov decision processes
搜索结果 - 4
分离潜在马尔可夫决策过程中的近优学习与规划
我们研究了学习潜在马尔可夫决策过程(LMDPs)的计算和统计学方面。本文的主要目标是建立一个几乎精确的统计阈值,以实现有效学习所需的时间长度。在计算方面,我们证明,在最优策略下具有较弱的分离性假设时,存在一个几乎多项式的算法,时间复杂度与统
→
PDF
24 days ago
潜在 MDP 中的强化学习是可行的:通过离线策略评估实现在线保证
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优
→
PDF
a month ago
ICML
基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
PDF
2 years ago
潜在 MDPs 的强化学习:遗憾保证和下界
在本文中,我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题,我们提出了一个具有局部保证的有效算法,以解决这个问题。
PDF
3 years ago
Prev
Next