使用先前政策指导的强化学习对双臂自由浮动空间机器人进行运动规划

Sep, 2022

使用先前政策指导的强化学习对双臂自由浮动空间机器人进行运动规划

Reinforcement Learning with Prior Policy Guidance for Motion Planning of Dual-Arm Free-Floating Space Robot

Yuxue Cao, Shengjie Wang, Xiang Zheng, Wenke Ma, Xinru Xie...

TL;DR我们提出了一种新的算法 EfficientLPT，通过使用混合策略、引入先验知识，以及采用无穷范数构建合理的奖励函数来提高强化学习方法的规划精度，从而解决了双臂自由浮动空间机器人动作规划中无法捕捉非合作对象的问题，并通过旋转速度不同的物体捕获任务验证了该方法的有效性。

Abstract

reinforcement learning methods as a promising technique have achieved superior results in the motion planning of free-floating space robots. However, due to the increase in planning dimension and the intensificat

reinforcement learning dual-arm free-floating robots motion planning efficientlpt object capturing

发现论文，激发创造

自由悬浮双臂空间机械臂非合作目标运动规划学习系统

本文研究了在空间环境下，利用强化学习算法对浮动式双臂空间机械臂（FFDASM）进行轨迹规划，通过模块一实现目标空间内多目标轨迹规划，模块二则可以预测并追踪自旋的非配合目标物体上的目标点。实验结果表明了该学习系统的可扩展性和普适性。

Jul, 2022

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019

走向实际效率：自主机器人在自由漂移移动目标的预捕获中的强化学习中领域随机化

利用深度强化学习的控制方法，在微重力条件下解决机器人的抓取前阶段的复杂挑战，通过试错学习，消除了手动设计特征的必要性，使机器人能够学习抓取策略。

Jun, 2024

学习分散式多臂运动规划器

我们提出了一种具有可扩展性和灵活性的闭环多臂机器人运动规划器，利用多智能体强化学习，训练去中心化策略以控制一个机械臂达到目标终端执行器姿态，通过利用经典规划算法来提高强化学习算法的学习效率，保留神经网络的快速推理时间，得出一个作用于不同团队规模的柔性政策。

Nov, 2020

基于深度强化学习的密集与动态环境中的多智能体运动规划

本文介绍深度强化学习算法和基于力的运动规划算法的混合算法，在稠密和动态环境下解决分布式运动规划问题，并且能够更好地解决时间最优性和冲撞问题。

Jan, 2020

虚拟到实际的深度强化学习：用于无地图导航的移动机器人连续控制

通过深度强化学习方法训练，可直接应用于未知的虚拟和实际环境中的地面移动机器人的无地图运动规划器。

Mar, 2017

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

采用强化学习的路径生成与细化运动控制的机器人导航

本文提出了一种基于强化学习的路径生成（RL-PG）方法，以用于移动机器人导航，无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点，通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署，证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。

Oct, 2022

无人机安全多智能体运动规划中的不确定性下滤波强化学习

我们提出一种可行的、基于强化学习和约束控制轨迹规划的无人机多智能体安全运动规划器，可以处理不确定的、杂乱的工作空间，并确保安全性、避免碰撞。该方法能够实时实施，相对于仅基于学习的方法，训练过程更简单，数值模拟和实验证明了该方法的有效性。

Oct, 2023

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015