ICMLJun, 2018

具有缩减计划的分层强化学习

TL;DR本文提出了一种基于阿布达比符号规划的层次强化学习方法,该规划器可以处理用户定义的评估函数,并且不基于 Herbrand 定理。因此,它可以利用奖励的先前知识,并且可以在状态空间未知的领域中工作。我们在实验中证明了我们的体系架构在未知状态空间和多目标存在时,相对于评估领域的训练样例数量,可以显著提高学习效率。