使用自动悬挂网系统学习泛化的碎片捕捉鲁棒策略
该论文研究了使用强化学习的方法来优化低推力卫星的轨迹设计和自主控制。研究表明这种方法可以学习出几乎最优的引导定律,并且对环境动态的不确定性有很好的适应性。
Oct, 2022
本研究提出了一种用于自主、鲁棒、去中心化的旋转目标多智能体检查的层次学习方法。采用深度强化学习训练高水平计划器和导航计划器处理点对点导航,对于未知目标几何形状和来自传感器输入的更高保真度的信息论目标,此方法可拓展至鲁棒策略,并在受限信息下成功地检查超过90% 的非凸旋转目标。
Feb, 2023
基于强化学习技术的自主决策能力的实施是为了在空间复杂环境中,将碰撞规避操控的决策过程委托给太空船自动执行,以实现更快速的响应和高度分散的操作。
Oct, 2023
我们介绍了一种新颖的贝叶斯演员-评论家强化学习算法,用于学习具有稳定性保证的控制策略,以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理,将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习,将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度,并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估,表现出令人印象深刻和有希望的性能。
Nov, 2023
这项研究通过扩散模型提出了一种机器学习模型,用于预测参与近距离接触的物体的位置不确定性,特别是对于次要物体(通常是碎片),该物体的预测更加不可预测。与其他最先进的解决方案和朴素的基准方法相比,我们比较了我们的模型的性能,显示出所提出的解决方案有潜力显著提高航天器运行的安全性和效率。
Nov, 2023
我们通过课程学习原则和细致的奖励工程,使用近端策略优化(PPO)智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练,以达到优化操作安全、优化处理量和最小化资源使用的竞争目标,并将其逐渐应用于更加复杂的环境动力学中,同时完善奖励机制,从而提高推理时间安全性并提高垃圾分类工厂的效率。
Apr, 2024
该论文研究了使用离散动作空间,以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响,针对检查任务和停靠任务的需求。结果显示对于检查任务,有限数量的离散选择导致最佳性能,而对于停靠任务,连续控制导致最佳性能。
May, 2024
该论文介绍了在卢森堡大学的零重力实验室中,将近端策略优化(PPO)与模型预测控制(MPC)相结合的创新方法,利用PPO的强化学习能力和MPC的精准性来导航浮动平台的复杂控制动力学,从而实现对零重力环境的自适应控制框架的发展和改进。该研究为在零重力环境中控制浮动平台开辟了新的可能性,带来了空间探索的新进展。
Jul, 2024
本研究解决了低地球轨道 debris 增加对航天安全构成的威胁,以及主动去除 debris (ADR) 任务规划复杂性的问题。论文提出了一种基于深度强化学习的自主决策规划模型,能够训练轨道转移飞行器 (OTV) 最优去除 sequencing,并能够自主适应动态轨道条件和任务要求。该模型的应用将显著提高 ADR 任务的经济性和技术有效性。
Sep, 2024
本研究针对太空碎片会合任务中的规划效率问题,提出了一种基于深度强化学习的 masked PPO 算法的新应用。该方法通过优化碎片访问顺序,显著缩短了任务总时间,比遗传算法和贪婪算法分别减少了约 10.96% 和 13.66%。这一创新方法为提升太空碎片清除任务的规划策略提供了新的思路。
Sep, 2024