Mar, 2015

部分可观马尔可夫决策过程中最优稳态控制的几何与确定性

TL;DR本研究旨在解决部分可观测的马尔科夫决策过程中最大化期望奖励的问题,将其转化为线性规划问题,并研究了用于减少搜索空间的有限随机性的最优无记忆策略的几何框架,进而通过实验说明了该方法有助于更好更快地收敛到策略梯度。