TL;DR本研究针对在 Markov 决策过程中的主动探索问题进行了研究,提出了一种新的学习算法,用以解决 MDPs 中的主动探索问题并证明了其相对于 MAB 来说更为复杂,同时也给出了一个用于缓解策略收敛速度缓慢的启发式过程。
Abstract
We introduce the active exploration problem in markov decision processes
(MDPs). Each state of the MDP is characterized by a random value and the
learner should gather samples to estimate the mean value of each s
论文提出了一种高效的 Model-Based Active eXploration (MAX) 算法用于强化学习中的有效探索,该算法使用前向模型的集合来规划观察新事件的行为,优化代理行为,通过基于贝叶斯的探索估计集合成员之间的未来预测差异衡量新颖性,实验证明在半随机离散环境中 MAX 比强基线算法至少高效一个数量级,能够扩展到高维连续环境。