BriefGPT.xyz
Ask
alpha
关键词
optimistic exploration algorithm
搜索结果 - 1
潜在 MDP 中的强化学习是可行的:通过离线策略评估实现在线保证
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优
→
PDF
a month ago
Prev
Next