基于情境的自监督机器人学习中的虚拟目标
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架,以解决本能动机技能获取问题,着重探讨了在自主系统中学习目标表示和优先级的现有方法,并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。
Dec, 2020
本文介绍了一种使用自监督学习方法和动力学模型和距离函数相结合的视觉目标到达方法,可用于训练通用机器人执行多种任务,该方法不需要手动设计奖励函数,仅使用无标签数据进行学习,并表现出较高的性能。
Dec, 2020
通过不对人类先验假设的依赖,我们可以通过非对称自我博弈的方法训练出只需稀疏奖励的 Bob,并且他可以从 Alice 的轨迹中学习,以实现目标发现和机器人操作的一体化控制。
Jan, 2021
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021
本文研究了使用自然语言标签并结合机器人交互数据集,来学习规划机器人视觉操作任务的问题,并发现此方法在具有一定自由度的语言规划任务中表现更优秀,成功地完成了使用自然语言描述的物品移动任务。
Sep, 2021
本文提出了一种名为Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
在机器人领域,通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态,并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法,并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。
Jan, 2023
通过使用少量语言数据,我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题,该方法获得了在不同场景下进行操作任务的指令跟随表现,并具有从标记数据中外推语言指示的能力。
Jun, 2023