Mar, 2019

计划性内在驱动: 对内在驱动探索的分层性见解

TL;DR本文提出了一种调度内在驱动(SID)代理,通过将内在和外在操作策略分离和调度之间,增加探索效率并稳定学习,并引入了后继特征控制(SFC)作为内在奖励的一种新类型,考虑了完整轨迹上的统计信息。实验结果表明,使用SFC和内在驱动的分层使用,探索效率得到了大幅提高。