关键词temporally extended tasks
搜索结果 - 2
- 基于解离式可达性规划的目标驱动强化学习
我们提出了一种基于目标条件的强化学习算法,结合了解缠绕的可达性规划(REPlan),用于解决时间延展任务,在模拟和真实世界任务中,REPlan 显著优于之前最先进的方法。
- 通过想象和达到视觉目标来跟随指示
本文提出了一种基于空间推理和 RL 框架的学习方法,通过想象视觉目标并选择适当的行动来完成任务,使用单一外部奖励信号和内部动机来学习,该方法在两个仿真 3D 环境中,进行了验证,并在处理物体排列任务时,优于两个扁平化架构和一个分层架构。