在潜空间中通过组合目标实现高效在线微调
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
Feb, 2020
本文介绍了一种新的基于模型的强化学习方法来使用背景计划:将(近似)动态规划更新和无模型更新混合,类似于Dyna架构。我们通过将背景规划限制在一组(抽象)子目标上,并仅学习本地的、子目标条件模型的方法来避免高内存和计算使用率的不足,并证明了我们的GSP算法在各种情况下可以比Double DQN基线学习得更快。
Jun, 2022
提出了一种新的基于回归的离线GCRL算法GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR在各种问题和任务中都表现出比之前现有技术的显著优势。
Jun, 2022
本研究提出了一种层次化的方法,将模仿学习和离线强化学习的优点相结合,学习从高维相机观察中获得与任务无关的长时程策略,并通过技能链接来合并潜在的行为先验,以达到以前未见的技能组合,从而更好地控制机器人的实验结果。
Sep, 2022
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
通过使用预训练和微调范式,我们引入RoboFuME系统,利用网络上的数据和模型,允许机器人在几乎没有人工干预的情况下学习新任务,并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器,在线进行微调并提供奖励信号,从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中,我们的方法表现出色。
Oct, 2023
本文提出了一种新的基于模型的强化学习方法,使用背景规划来混合(近似)动态规划和无模型更新,以解决学习模型的不准确性和生成无效状态的问题,并通过约束背景规划到一组(抽象的)子目标和只学习局部的、以子目标为条件的模型来提高计算效率,自然地包含时间抽象以实现更快的长期规划,并完全避免学习转换动力学,展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。
Jun, 2024
本研究解决了从非专家的无动作观察数据中学习长期目标达成策略的挑战性问题。提出了一种新颖的子目标引导学习策略,通过生成合理的子目标来促进有效探索,从而显著提高了复杂机器人导航和操作任务的性能,展示了其强大的应用潜力。
Sep, 2024