机器人控制的残余强化学习
本文提出一种安全的强化学习框架,用于处理复杂的接触丰富的机器人操作任务,能够在任务空间和关节空间中保持安全,同时使机械臂与环境发生的接触力保持较小。该框架采用模拟训练,成功地在实际机器人上验证了其性能。
Jul, 2022
本研究使用一种修改自然策略梯度算法的模型,通过模拟学习并训练,成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中,并证明使用多个模型训练可以使学习到的策略更加稳健,从而弥补了系统识别的困难。
Mar, 2018
以制造业的最新趋势为背景,研究了自主机器人装配的问题。提出一种利用几何运动规划作为先验知识来引导强化学习的方法,以实现高精度的装配任务。同时,还提出了一种能够学习运动规划并将控制器推广到物体位置变化的神经网络架构。
Mar, 2018
我们提出了一种无需力传感器训练的强化学习策略来实现直接力控制,展示了在四足机器人整体控制平台上通过变化的整体柔顺度实现的重力补偿和阻抗控制,使得人类通过操纵器件即可直观地远程操作机器人,从而实现多样化的运动与操纵任务,为四足机器人提供了学习整体力控制的首次实际部署,为更具多功能和适应性的四足机器人铺平了道路。
May, 2024
本文介绍了机器学习和强化学习在控制和规划自主系统行为方面的应用,同时强调在安全关键的环境下要特别注意算法的可靠性和安全性,为控制理论家们提供一个学习该领域的起点。
Jun, 2019
本文介绍了一种简单的方法 —— 残差策略学习(Residual Policy Learning,RPL),用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时,研究了 RPL 的应用,这些任务中存在良好但不完美的控制器。与从头开始的强化学习相比,RPL 在这些任务中可以获得显著的改进。在六个挑战性的 MuJoCo 任务中,我们将初始控制器设置为手动设计的策略和具有已知或学习转移模型的模型预测控制器。通过将学习与控制算法相结合,RPL 可以执行长时程、稀疏奖励任务,而仅使用强化学习则失败。此外,我们发现 RPL 在改善初始控制器方面一致且显著。我们认为 RPL 是结合深度强化学习和机器人控制互补优势的一种有前途的方法,推动了两者独立实现的边界。
Dec, 2018