May, 2018

随机动作集的规划与学习

TL;DR研究了具有随机动作集的马尔可夫决策过程及其最优策略和值函数的性质,并针对不同情况提出了多项式时间的策略迭代和价值迭代方法。