太空航天器自主决策规划以避免碰撞：一种强化学习方法

Oct, 2023

太空航天器自主决策规划以避免碰撞：一种强化学习方法

Spacecraft Autonomous Decision-Planning for Collision Avoidance: a Reinforcement Learning Approach

Nicolas Bourriez, Adrien Loizeau, Adam F. Abdin

TL;DR基于强化学习技术的自主决策能力的实施是为了在空间复杂环境中，将碰撞规避操控的决策过程委托给太空船自动执行，以实现更快速的响应和高度分散的操作。

Abstract

The space environment around the Earth is becoming increasingly populated by both active spacecraft and space debris. To avoid potential collision events, significant improvements in →

spacecraft space debris space situational awareness collision avoidance autonomous decision-making

发现论文，激发创造

深度强化学习中动态决策机构的运动规划

本文介绍了一种基于深度强化学习和 LSTM 的算法，可以在不使用特定行为规则的情况下，学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验，证明了该算法随着代理数量的增加能够更好地执行避碰，并且不需要使用 3D 激光雷达。

May, 2018

移动机器人避障的安全实践强化学习

本文提出了一种结合现实强化学习、基于搜索的在线轨迹规划和自动紧急情况干预的高效碰撞避免系统，用于在室内实际环境下的移动机器人安全行驶。实验结果显示该方法比多种基线更优秀，可以实现更高的平均速度、更低的碰撞频率、更高的目标达成率、更小的计算开销和更平滑的整体控制。

Sep, 2022

基于强化学习的空中交通冲突解除

本文使用强化学习算法，最小化无人机避障中的水平分离问题，将避障策略转化为一组航迹点，以满足安全需求，并在高保真模拟和实际飞行演示中进行了评估。

Jan, 2023

深度强化学习避碰系统的奖励函数优化

该研究探讨使用代理优化器来调整深度强化学习算法，以优化多种航空器平台，包括无人机的碰撞回避能力，从而提高安全性和操作可行性。

Dec, 2022

碰撞避免的不确定性感知强化学习

本研究提出了一种基于不确定性的模型学习算法，以实现移动机器人学习导航和避免碰撞的目标，该算法可以估计碰撞概率并通过不确定度来控制行进速度，并利用神经网络从传感器中处理原始数据，实验结果表明，该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。

Feb, 2017

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023

基于通信的协同自适应巡航控制的强化学习

合作自适应巡航控制（CACC）在连接和自动驾驶汽车（CAVs）中提高交通效率和安全方面扮演了重要角色。强化学习（RL）在优化 CACC 的复杂决策过程中表现出了有效性，从而改善了系统性能和适应性。多智能体强化学习（MARL）通过集中训练和分布执行（CTDE）使多个 CAVs 之间实现协调行动，具有显著的潜力。然而，MARL 在面临可扩展性问题时往往面临挑战，尤其是 CACC 车辆突然加入或离开车队时导致性能下降。为了解决这些问题，我们提出了一种通信感知强化学习（CA-RL），包括一个通信感知模块，通过前向和后向信息传输模块提取和压缩车辆通信信息。这样可以在 CACC 流量中实现高效循环信息传播，确保策略的一致性，并减轻 CACC 中 MARL 的可扩展性问题。实验证明，CA-RL 在各种交通场景中明显优于基准方法，实现了更好的可扩展性、稳健性和整体系统性能，并能在参与车辆数量变化时保持可靠的性能。

Jul, 2024

应用 MPC - 强化学习方法的无人机路径规划考虑避障

本文提出一种基于深度学习算法的无人机航迹规划方法，采用 LSTM-MPC 作为决策策略，并结合预测池来提高系统鲁棒性和效率，同时通过数值仿真实验验证了该方法的有效性。

Feb, 2023

通过深度强化学习实现平滑轨迹避碰

本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计，即平滑性训练轨迹和模型泛化能力，利用边缘奖励和平滑度约束来确保无人机平稳飞行，同时大大降低碰撞风险，并演示整个设计和各组件的有效性。

Oct, 2022

深度强化学习在高风险驾驶场景下的先进纵向控制和碰撞避免

现有的先进驾驶辅助系统主要关注直接前方的车辆，通常忽视了来车的潜在风险。本研究引入了一种基于深度强化学习的新算法，用于纵向控制和避撞，该算法有效地考虑了前后车辆的行为，并在模拟的高风险情况下实施，如紧密行驶的多车辆场景中的紧急刹车，传统系统通常难以应对。实验证明该算法能够防止潜在的连环碰撞，包括涉及重型车辆的碰撞。

Apr, 2024