BriefGPT.xyz
Ask
alpha
关键词
optimal deterministic policies
搜索结果 - 1
有时间限制的强化学习
我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的 cMDPs 转化为无约束的 MDPs。我们设计出了适用于大表 cMDPs 的计划和学习算法,并设计了近似算法,可
→
PDF
8 months ago
Prev
Next