BriefGPT.xyz
Ask
alpha
关键词
geometric policy iteration
搜索结果 - 1
KDD
马尔可夫决策过程的几何策略迭代
探究了有限状态 - 动作折扣马尔可夫决策过程的价值函数多面体结构,并使用超平面排列表征了多面体的边界。提出了一种新的算法 Geometric Policy Iteration (GPI) 来解决折扣 MDPs,它使用单个状态的策略更新,以更
→
PDF
2 years ago
Prev
Next