Dec, 2018

强化学习中的课程表政策学习

TL;DR本文研究课程学习在强化学习中的应用,并针对多个传递学习算法扩展已有的课程设计方法,通过学习 MDP(Markov Decision Process) 过程中的课程策略,得出可以用于训练代理人的课程,进而实现更快或同等方法的学习效率。