太空航天器自主决策规划以避免碰撞:一种强化学习方法
本文介绍了一种基于深度强化学习和 LSTM 的算法,可以在不使用特定行为规则的情况下,学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验,证明了该算法随着代理数量的增加能够更好地执行避碰,并且不需要使用 3D 激光雷达。
May, 2018
本文提出了一种结合现实强化学习、基于搜索的在线轨迹规划和自动紧急情况干预的高效碰撞避免系统,用于在室内实际环境下的移动机器人安全行驶。实验结果显示该方法比多种基线更优秀,可以实现更高的平均速度、更低的碰撞频率、更高的目标达成率、更小的计算开销和更平滑的整体控制。
Sep, 2022
本研究提出了一种基于不确定性的模型学习算法,以实现移动机器人学习导航和避免碰撞的目标,该算法可以估计碰撞概率并通过不确定度来控制行进速度,并利用神经网络从传感器中处理原始数据,实验结果表明,该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。
Feb, 2017
我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法,用于学习具有稳定性保证的控制策略,以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理,将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习,将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度,并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估,表现出令人印象深刻和有希望的性能。
Nov, 2023
合作自适应巡航控制(CACC)在连接和自动驾驶汽车(CAVs)中提高交通效率和安全方面扮演了重要角色。强化学习(RL)在优化 CACC 的复杂决策过程中表现出了有效性,从而改善了系统性能和适应性。多智能体强化学习(MARL)通过集中训练和分布执行(CTDE)使多个 CAVs 之间实现协调行动,具有显著的潜力。然而,MARL 在面临可扩展性问题时往往面临挑战,尤其是 CACC 车辆突然加入或离开车队时导致性能下降。为了解决这些问题,我们提出了一种通信感知强化学习(CA-RL),包括一个通信感知模块,通过前向和后向信息传输模块提取和压缩车辆通信信息。这样可以在 CACC 流量中实现高效循环信息传播,确保策略的一致性,并减轻 CACC 中 MARL 的可扩展性问题。实验证明,CA-RL 在各种交通场景中明显优于基准方法,实现了更好的可扩展性、稳健性和整体系统性能,并能在参与车辆数量变化时保持可靠的性能。
Jul, 2024
本文提出一种基于深度学习算法的无人机航迹规划方法,采用 LSTM-MPC 作为决策策略,并结合预测池来提高系统鲁棒性和效率,同时通过数值仿真实验验证了该方法的有效性。
Feb, 2023
本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计,即平滑性训练轨迹和模型泛化能力,利用边缘奖励和平滑度约束来确保无人机平稳飞行,同时大大降低碰撞风险,并演示整个设计和各组件的有效性。
Oct, 2022
现有的先进驾驶辅助系统主要关注直接前方的车辆,通常忽视了来车的潜在风险。本研究引入了一种基于深度强化学习的新算法,用于纵向控制和避撞,该算法有效地考虑了前后车辆的行为,并在模拟的高风险情况下实施,如紧密行驶的多车辆场景中的紧急刹车,传统系统通常难以应对。实验证明该算法能够防止潜在的连环碰撞,包括涉及重型车辆的碰撞。
Apr, 2024