NIPSMay, 2018

数据效率的分层强化学习

TL;DR本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。