BriefGPT.xyz
Ask
alpha
关键词
optimistic planning
搜索结果 - 2
具约束的有限时间 MDP 的高样本效率算法
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率
→
PDF
4 years ago
有限马尔可夫决策问题中的勘探 - 利用
本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明
→
PDF
4 years ago
Prev
Next