太空航天器自主决策规划以避免碰撞:一种强化学习方法
本文介绍了一种基于深度强化学习和 LSTM 的算法,可以在不使用特定行为规则的情况下,学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验,证明了该算法随着代理数量的增加能够更好地执行避碰,并且不需要使用 3D 激光雷达。
May, 2018
本文提出了一种结合现实强化学习、基于搜索的在线轨迹规划和自动紧急情况干预的高效碰撞避免系统,用于在室内实际环境下的移动机器人安全行驶。实验结果显示该方法比多种基线更优秀,可以实现更高的平均速度、更低的碰撞频率、更高的目标达成率、更小的计算开销和更平滑的整体控制。
Sep, 2022
本研究提出了一种基于不确定性的模型学习算法,以实现移动机器人学习导航和避免碰撞的目标,该算法可以估计碰撞概率并通过不确定度来控制行进速度,并利用神经网络从传感器中处理原始数据,实验结果表明,该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。
Feb, 2017
我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法,用于学习具有稳定性保证的控制策略,以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理,将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习,将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度,并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估,表现出令人印象深刻和有希望的性能。
Nov, 2023
本文提出一种基于深度学习算法的无人机航迹规划方法,采用 LSTM-MPC 作为决策策略,并结合预测池来提高系统鲁棒性和效率,同时通过数值仿真实验验证了该方法的有效性。
Feb, 2023
本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计,即平滑性训练轨迹和模型泛化能力,利用边缘奖励和平滑度约束来确保无人机平稳飞行,同时大大降低碰撞风险,并演示整个设计和各组件的有效性。
Oct, 2022
现有的先进驾驶辅助系统主要关注直接前方的车辆,通常忽视了来车的潜在风险。本研究引入了一种基于深度强化学习的新算法,用于纵向控制和避撞,该算法有效地考虑了前后车辆的行为,并在模拟的高风险情况下实施,如紧密行驶的多车辆场景中的紧急刹车,传统系统通常难以应对。实验证明该算法能够防止潜在的连环碰撞,包括涉及重型车辆的碰撞。
Apr, 2024
本文提出了一种对抗性强化学习算法以最大化自主车辆动态控制对网络物理攻击的鲁棒性,通过分析状态估计过程并在博弈理论框架中研究了攻击者和自主车辆之间的互动以及提出了长短期记忆的使用,同时研究了数据处理的过程以提高面对网络物理攻击的鲁棒性。
May, 2018