用于离线组合强化学习的机器人操作数据集
本文介绍 CompoSuite,一个开源的模拟机器人操作基准测试,用于对复合多任务强化学习进行基准测试,评估现有单任务、多任务和组合学习算法在不同训练设置下的能力,并评估它们对未见任务的组成归纳能力,以此暴露现有 RL 方法在组合性方面存在的缺陷及问题。
Jul, 2022
从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向,我们提出了一个基准,其中包括:使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集,在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法,并为真实系统上的离线强化学习提供了可重现的实验设置。
Jul, 2023
通过对比优胜队伍的方法和最新的离线强化学习算法与挑战数据集的基准结果,本研究详细介绍了比赛规则,并讨论了利用模拟器和真实机器人进行实验的话题。
Aug, 2023
本研究为解决离线情境下强化学习(RL)的挑战,特意设计离线 RL 的基准测试任务,指导现实世界中数据集集合的设计与收集,并在开源代码上进行了综合评估,以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。
Apr, 2020
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
以离线强化学习方向研究四足机器人腿部鲁棒动作,通过经典模型预测控制方法收集数据集,并与基于模型无关的在线强化学习方法进行对比,发现离线强化学习算法在某些任务上能够超越模型无关的在线强化学习算法,但在稳定性和快速适应性方面仍存在差距,该研究为测试和评估离线强化学习算法在实际四足机器人运动任务中的表现提供了一个发展平台。
Sep, 2023
该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。
Jul, 2019
通过大规模机器人数据收集,研究表明,在考虑环境因素的情况下利用组合性训练数据,可以更好地提高机器人政策的泛化能力,从而避免收集针对特定情况的数据。
Mar, 2024
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021