从离线数据提取可转移机器人技能的高效策略学习
通过动态规划来利用之前的机器人行为数据拓展新的技能的研究,该方法可以允许机器人通过先前解决的任务或通过自主或无指导的环境交互来扩展和概括学习的行为,同时获得对自身环境的更广泛的理解和学习更好的策略。
Oct, 2020
本文提出了使用自回归进行离线机器人技能学习,并通过先前的数据学习环境的形式理解,该方法可以处理高维相机图像,可以学习到许多技能,并通过一系列技术进行训练,此方法具有较强的泛化能力,可以在多个目标之间进行目标链接,通过预训练或辅助目标学习到丰富的表示。
Apr, 2021
本文提出了一种实用的线下强化学习工作流程,类似于监督学习问题的工作流程,并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中,使用此工作流程在没有在线调整的情况下生成有效策略的有效性。
Sep, 2021
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定和具有广泛泛化性能的价值函数和策略。
Sep, 2023
我们提出了一种自适应的行动量化方案,通过使用VQ-VAE学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在Robomimic环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了2-3倍的改进。
Oct, 2023
通过离线数据集学习的、能够在不同领域中应用的多功能技能是一项全新的离线技能学习框架 DuSkill 的核心,通过引导式扩散模型生成可以应用于任务的多功能技能,从而增加不同领域中策略学习的稳健性。
Mar, 2024
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完成任务,使用强化学习过程以及独立的视觉-语言模型确保学到的行为的可靠性和可信度,从而使机器人能够高效地提出和完成高级任务。
May, 2024
本研究解决了在现实世界中使用离线强化学习时,数据集需手动标注奖励标签的问题,尤其在难以确定真实状态时。我们提出一种新系统,通过使用视觉语言模型的偏好反馈自动生成奖励标签,并基于此学习策略。实验表明,该方法在复杂的机器人辅助穿衣任务中表现出色,并在仿真任务中明显优于现有基线方法。
Nov, 2024