关键词goal-conditioned hierarchical reinforcement learning
搜索结果 - 5
- 通过基于模型的展开实现下层强化学习的引导协作
通过引入模型预测、渐进惩罚等方法,本研究提出了一种基于目标条件的层次强化学习框架,实现了不同层级之间的合作,从而提高了长期目标探索任务中政策的稳定性和效率。实验结果表明,该框架在难度较高的探索问题和机器人控制方面,比基准模型和之前的最先进的 - 通过潜在地标图在分层强化学习中平衡探索与利用
通过动态构建潜在标志图 (HILL) 学习潜在目标表示,以解决 GCHRL 中的时间连贯性和探索与利用之间的平衡问题,并通过同时考虑节点和边的新颖性和效用度量开发了平衡探索与利用的子目标选择策略。
- 分层赋权:实现可行的基于赋权的技能学习
通用目标代理需要大量的技能。我们介绍了一种新的框架,层次赋权,在计算赋权时将自目标条件层次强化学习的概念整合进去,通过引入变分下界和层次结构计算赋权。这个框架的研究证实,我们的四级代理能够学习涵盖比之前工作大两个数量级的技能,以在模拟机器人 - 多智能体导航中学习图增强的指挥者 - 执行者模型
本文介绍了一种基于图神经网络的多智能体导航任务的目标条件层次方法,名为 MAGE-X,该方法由高级目标指挥官和低级行动执行器组成,并通过使用关键合作者构建子图来提高合作。结果显示,MAGE-X 在多智能体颗粒环境(MPE)和更复杂的四旋翼 - ICLR稳定子目标表示学习的主动层次探索
本文提出了一种新的规范化方法来提高子目标表示的稳定性和效率,并设计了一种主动式分层探索策略来寻找没有内在奖励的新有前途的子目标和状态,实验结果表明,我们的方法在具有稀疏奖励的连续控制任务中显著优于最先进的基线算法。