使用示范加速强化学习和规划:一项调查
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
Dec, 2022
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
Jul, 2021
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器操作中。
Jul, 2017
本文综述了五个最近的学习框架,这些框架主要依赖人类指导,而不是传统的一步一步的动作演示,评估了每个框架的动机、假设和实现,并讨论了可能的未来研究方向。
Sep, 2019
本研究通过比较监督式学习与强化学习算法,提出了一个适用于动作规划领域的 DDPG-MP 算法,该算法有助于解决运动规划中数据不足的问题,并在新领域的规划中实现了较快速度。
Jun, 2019
该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略,并提出 DCIL-II 算法以解决连续目标之间的兼容性问题,并在仿真环境中展示了前所未有的样本效率。
Nov, 2022
本文介绍了一种基于强化学习的手术自动化算法,使用专家演示数据来提高任务探索效率并克服探索挑战。实验显示该算法在 $10$ 个手术操作任务中取得了显著的提高,并在实际机器人上展示了有效性。
Feb, 2023
提出了一种名为 TD3fG 算法的新算法,旨在通过学习经验和专家的有机转换,帮助代理从低质量和不充分的演示中提取先前的知识,从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。
Mar, 2023