Feb, 2020

强化学习蒙特卡罗探索算法收敛性研究

TL;DR在本文中,我们使用归纳法方法,针对一类最优策略的前馈马尔可夫决策流程(Optimal Policy Feed-Forward MDPs),即在使用最优策略下,MDPs的状态在任何情况下都不会被重访的MDPs,为原始MCES算法取得了几乎肯定的收敛性。