May, 2017

层次强化学习中的特征控制作为内在动机

TL;DR本文介绍了一种通用的子目标类别,应用于端到端层次强化学习系统中,可用于处理含有稀疏奖励的Montezuma的复仇等Atari游戏。该方法引入了一组时间扩展行动,或选项,以及对应的子目标。