Feb, 2019

马尔可夫决策过程中的主动探索

TL;DR本研究针对在 Markov 决策过程中的主动探索问题进行了研究,提出了一种新的学习算法,用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂,同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。