关键词hierarchical algorithm
搜索结果 - 3
- HIQL:将潜在状态作为行动的离线目标条件强化学习
无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法,以利用大量无标签(无回报)数据。本文提出了一种基于层次结构的算法,用于从离线数据中进行目标条件下的增强学习,并证明了该方法对估计值函数 - 分层决策 Transformer
本文提出了一种层次算法用于从演示中学习序列模型,可解决强化学习中的任务策略估计问题,通过选择子目标来指导低层控制器完成任务,改善了以往方法的性能,并证明了其在多项任务中优于基线方法,表明层次模型适用于从演示中学习序列模型。
- 层次化品质多样性用于在线损伤恢复
介绍了分层试错算法,使用分层行为复述学习各种技能并利用这些技能使机器人更适应不同情况。实验表明,与最佳基线相比,我们的方法在迷宫导航任务中需要的行动次数少 20%,而完全失败的通常情况下减少 57%。