无任务离线强化学习的潜在计划
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
本文提出了一种中继策略学习的方法,可用于模仿和强化学习,旨在解决多阶段、长视程机器人任务,包括模仿学习阶段和强化学习阶段,通过学习目标条件分层策略和使用新颖的数据重新标记算法简化了政策学习问题,并证明了该方法在挑战性的厨房模拟环境中解决多阶段、长视程操作任务的有效性。
Oct, 2019
本研究提出了基于多任务离线强化学习和亚目标规划的框架,通过先从大量数据中提取信息进行预训练,然后在视觉输入下对未知任务进行在线微调,旨在解决机器人学中多任务数据对下游任务的泛化问题。
Oct, 2022
通过设计变分自编码器来学习技能,我们提出了一个基于技能的框架来增强离线强化学习,从而克服车辆规划中的长期规划挑战。通过将学到的技能作为动作,可以训练出能够进行长期推理和规划未来的最终策略,从而在 CARLA 上取得了强大的性能优势。
Sep, 2023
通过动态规划来利用之前的机器人行为数据拓展新的技能的研究,该方法可以允许机器人通过先前解决的任务或通过自主或无指导的环境交互来扩展和概括学习的行为,同时获得对自身环境的更广泛的理解和学习更好的策略。
Oct, 2020
该研究提出了一种基于模型的离线 RL 算法,该算法可扩展应用于高维视觉观测空间,通过学习潜在状态动力学模型并在潜在空间中表示不确定性来克服图像观测的挑战,并在多项具有挑战性的基于图像的移动和操纵任务中取得了优异的表现。
Dec, 2020
LEAGUE 是一种集成任务计划和技能学习框架,利用任务计划器的符号界面指导基于深度强化学习的技能学习,同时创建抽象状态空间以实现技能重用,并可以在任务计划系统内学习操作技能,不断提高其能力并解决更多任务。
Oct, 2022
从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向,我们提出了一个基准,其中包括:使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集,在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法,并为真实系统上的离线强化学习提供了可重现的实验设置。
Jul, 2023