本文提出了一种基于强化学习的多机器人编队控制器,用于自主空中人体运动捕捉。将此问题视为顺序决策问题并使用深度神经网络的强化学习方法进行解决,以实现基于视觉的运动捕捉目标,并利用 PPO 训练随机分散控制策略以进行编队控制。在模拟环境中进行了广泛的模拟实验以验证该方法的有效性。最后,真实机器人实验表明我们的策略具有很好的泛化性能。
Jul, 2020
该研究介绍通过气动非抓取性操纵(吹气)来有效地将散乱的物体移动到目标容器。研究通过基于深度强化学习的空间动作地图框架实现了高水平的规划和低水平的闭环控制的有效组合。结果表明,吹气比推动等方法更有效,也证明了在低水平微观控制和高水平规划等不同子策略之间存在专业化的合作。在实际机器人上,该系统的仿真训练策略成功地转移到了实际环境,并可以泛化到新颖物体上。
Apr, 2022
本文提出了一种基于深度强化学习的方法,用于规划信息轨迹以增加无人机(UAV)发现丢失目标的可能性,以此来解决搜索和救援任务中的活动目标探测问题。
Dec, 2022
本文研究了多飞行器在恶劣气流环境中的运动控制问题,并提出了一种基于深度强化学习和图形卷积神经网络的解决方法,能够帮助机器人团队实现更好的气流补偿和协同运动。
Jun, 2023
我们介绍了一种新颖的贝叶斯演员-评论家强化学习算法,用于学习具有稳定性保证的控制策略,以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理,将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习,将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度,并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估,表现出令人印象深刻和有希望的性能。
Nov, 2023
通过使用数据同化推断和强化学习优化采样策略的思路,研究展示了一个基于无人机观测的地表通量估计框架,证明了强化学习训练的无人机可以更准确地量化CO2热点,而非沿预定义路径进行采样的无人机,这为进一步开发复杂地表通量场的映射框架提供了有价值的见解。
Jan, 2024
这篇研究论文比较了两种用于推断气体羽流源项参数的无人机采样策略,并证明了深度强化学习在非等向气体羽流环境中相对于信息觅食法的优越性能。
使用约束引导扩散(CGD)的混合学习/在线优化方案,将传统以优化为基础的规划器与模仿学习相结合,生成无碰撞、动态可行的轨迹,以解决计算成本高、动态可行性不明确和适应新约束的问题。
May, 2024
本研究针对四足机器人在快速变化的表面上运动时,现有模型预测控制(MPC)方法无法应对复杂任务和缺乏鲁棒性的问题。我们提出了一种将本体感觉规划与强化学习(RL)相结合的框架,能够实现灵活且安全的运动行为,并在多个地形上展示了显著的鲁棒性和性能提升。
Sep, 2024
本研究解决了四足机器人在复杂任务中面临的规划能力不足的问题。通过将自我感知规划与强化学习相结合,提出了一种新颖的框架,使机器人在不断变化的地形上能够实现灵活且安全的运动。研究表明,该框架在多种地形下表现出更强的鲁棒性,并能有效处理约束条件。