Jun, 2020
层次强化学习中生成受邻近约束的子目标
Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning
TL;DR本文研究了基于目标的层次强化学习(HRL)中高层次行动空间(即目标空间)的训练效率问题,提出了使用邻接约束把高层次动作空间限制为当前状态的$k$步领域,证明该约束在确定性MDPs下保留了最优层次策略,实现方法是训练一个区分相邻和非相邻子目标的邻接网络,在实验中验证了该约束在离散和连续控制任务中显著提高了HRL方法的性能。