KDDJun, 2022

马尔可夫决策过程的几何策略迭代

TL;DR探究了有限状态 - 动作折扣马尔可夫决策过程的价值函数多面体结构,并使用超平面排列表征了多面体的边界。提出了一种新的算法 Geometric Policy Iteration (GPI) 来解决折扣 MDPs,它使用单个状态的策略更新,以更快的价值改进不影响计算效率,同时允许状态值的异步更新。证明了 GPI 的复杂度达到了策略迭代的最佳已知界限,并展示了 GPI 在各种大小的 MDPs 上的优越性。