Oct, 2017

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

TL;DR提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。