Jun, 2012

具有形式学习时间保证的增量式基于模型的学习器

TL;DR研究了使用实时动态规划加速基于模型的学习算法,提高了在求解有限状态和动作空间的马尔可夫决策问题时的计算效率,并在 PAC 意义下证明了这两种算法的高效性。