ICLRMay, 2021

稳定子目标表示学习的主动层次探索

TL;DR本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率,并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态,实验结果表明,我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。