本研究提出了一种将想象中的子目标融入策略学习中的方法,以促进解决需要更复杂的任务,并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。
Jul, 2021
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
Feb, 2020
本文介绍了一种基于 “目标条件下的先验知识学习”(GCSL)算法的延伸方法 TraIL,在原有算法基础之上,通过利用轨迹的信息来预测动作和目标子目标,从而使得智能体可以在更多的目标状态下取得更好的性能表现。
May, 2023
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。
Apr, 2021
本研究提出了一种新的强化学习框架来帮助完全可控的智能体进行路径规划,并通过使用双向记忆编辑方法得到智能体的不同双向轨迹,隔离政策网络并利用专门的子目标网络来将智能体移动至不同方向,最后通过奖励形态化来缩短智能体到达目标的步骤数。实验结果表明,智能体能够到达训练中从未到达过的各种目标,并且能够使用奖励形态化来选择较短的路径。
提出了一种名为 Goal-conditioned bisimulation 的状态抽象形式来捕捉功能等变性,该方法可以让代理器在没有明确目标的情况下从先前的行为中学习新的目标,并且证明其可以适用于任何由纯状态奖励函数描述的下游任务
Apr, 2022
提出了一种新的基于模型的两阶段框架,Goal-conditioned Offline Planning(GOPlan),通过预训练一个能够捕捉多模式行为分布的先验策略,并利用规划生成假想轨迹进行微调策略,实现了离线多目标操作任务上最先进的性能。
Oct, 2023