通过参数化行为基元加速机器人强化学习
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器操作中。
Jul, 2017
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了DDPG和HER算法,提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和RL算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
本文提出了 JSRL 算法,该算法通过使用先导策略(guide-policy)和探索策略(exploration-policy)来解决机器人任务,从而实现了通过离线数据、演示或现有策略来初始化RL策略,并能够兼容任何RL方法。通过实现,我们展示了JSRL 能够在小数据时代优于现有的模仿和强化学习算法,并且我们提供了JSRL样本复杂性的上限,并证明了在有了先导策略的情形下,可以将传统的样本复杂性从指数级降至多项式。
Apr, 2022
本篇论文提出了一种基于可微分的信任区间层的深度Episode-based 强化学习算法,通过在高精度的情景下更新策略,使得不能被Step-based算法解决的稀疏奖励和非马尔科夫奖励能够被优化。在解决复杂的机器人控制任务方面,该算法优于 Step-based 算法,并且稀疏和非马尔科夫奖励更适合定义所需的行为参数,以获得更高质量的策略。
Oct, 2022
通过使用状态条件生成模型在技能空间中加速探索,同时提出低层次的剩余策略来适应未知的任务变化,从而在与先前工作的比较中显着加快了探索速度,并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。
Nov, 2022
本研究提出了一种用于评估行动受限强化学习算法的基准测试,对现有算法及其新颖变种在多个机器人控制环境下进行评估,提供了领域的第一个深入视角,并揭示了令人惊讶的见解,包括普通基准方法的有效性。我们的实验中使用的基准问题和相关代码可在github.com/omron-sinicx/action-constrained-RL-benchmark上获得以供进一步研究和发展。
Apr, 2023
本研究提出一种基于 Hierarchical Reinforcement Learning (HRL) 和 imitation learning 的算法,称为 primitive enabled adaptive relabeling (PEAR),其首先对少量的 expert demonstrations 进行自适应 relabeling,以生成子目标监督数据集,然后采用 imitation learning 来规范化 HRL agents,此方法可以被轻松地集成到典型的 model free reinforcement learning 算法中以解决大多数机器人任务。
Jun, 2023
我们开发了一种精心实现的库,其中包含一种样本高效的离线深度强化学习方法,以及用于计算奖励和重置环境的方法,一个广泛采用的机器人的高质量控制器,和几个具有挑战性的示例任务。我们希望这些有希望的结果和我们的高质量开源实现将为机器人学界提供一个工具,以促进机器人强化学习的进一步发展。
Jan, 2024
我们提出了一个原始级别的机器人数据集RH20T-P,其中包含约33000个视频剪辑,涵盖了44个多样且复杂的机器人任务,为模块化泛化代理的未来发展提供了便利。
Mar, 2024
本研究解决了深度强化学习(DRL)在机器人应用时面临的复杂性和成本问题。通过对DRL在开发现代机器人能力方面成功案例的综合分析,揭示了其关键因素和未被充分探索的领域,并提出未来研究的方向,重点在于稳定高效的RL范式和整合多种能力的系统性方法。这项工作为RL从业者和机器人研究人员提供了重要的见解,帮助他们利用RL的优势开发更具能力的实际机器人系统。
Aug, 2024