使用自动悬挂网系统学习泛化的碎片捕捉鲁棒策略

Jan, 2022

使用自动悬挂网系统学习泛化的碎片捕捉鲁棒策略

Learning Robust Policies for Generalized Debris Capture with an Automated Tether-Net System

Chen Zeng, Grant Hecht, Prajit KrisshnaKumar, Raj K. Shah, Souma Chowdhury...

TL;DR在本文中，我们介绍了一种基于强化学习和近端策略优化的方法来改进利用碎片网捕捉和处理太空垃圾的可行性。我们提出的策略不仅能在不同的场景下捕获垃圾，而且在许多方面都比基于可靠性的优化要好。

Abstract

tether-net launched from a chaser spacecraft provides a promising method to capture and dispose of large space debris in orbit. This tether-net

发现论文，激发创造

利用动力无关的强化学习实现低推力轨道转移

该论文研究了使用强化学习的方法来优化低推力卫星的轨迹设计和自主控制。研究表明这种方法可以学习出几乎最优的引导定律，并且对环境动态的不确定性有很好的适应性。

Oct, 2022

基于深度强化学习的曳杆目标多智能体检测

本研究提出了一种用于自主、鲁棒、去中心化的旋转目标多智能体检查的层次学习方法。采用深度强化学习训练高水平计划器和导航计划器处理点对点导航，对于未知目标几何形状和来自传感器输入的更高保真度的信息论目标，此方法可拓展至鲁棒策略，并在受限信息下成功地检查超过90% 的非凸旋转目标。

Feb, 2023

太空航天器自主决策规划以避免碰撞：一种强化学习方法

基于强化学习技术的自主决策能力的实施是为了在空间复杂环境中，将碰撞规避操控的决策过程委托给太空船自动执行，以实现更快速的响应和高度分散的操作。

Oct, 2023

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员-评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023

用扩散模型预测最近接近时的位置不确定性

这项研究通过扩散模型提出了一种机器学习模型，用于预测参与近距离接触的物体的位置不确定性，特别是对于次要物体（通常是碎片），该物体的预测更加不可预测。与其他最先进的解决方案和朴素的基准方法相比，我们比较了我们的模型的性能，显示出所提出的解决方案有潜力显著提高航天器运行的安全性和效率。

Nov, 2023

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024

研究选择对于深度强化学习在航天控制中的影响

该论文研究了使用离散动作空间，以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响，针对检查任务和停靠任务的需求。结果显示对于检查任务，有限数量的离散选择导致最佳性能，而对于停靠任务，连续控制导致最佳性能。

May, 2024

基于PPO的零重力环境下不确定浮动平台的动态控制

该论文介绍了在卢森堡大学的零重力实验室中，将近端策略优化（PPO）与模型预测控制（MPC）相结合的创新方法，利用PPO的强化学习能力和MPC的精准性来导航浮动平台的复杂控制动力学，从而实现对零重力环境的自适应控制框架的发展和改进。该研究为在零重力环境中控制浮动平台开辟了新的可能性，带来了空间探索的新进展。

Jul, 2024

基于人工智能的风险意识调度用于主动去除太空 debris 任务

本研究解决了低地球轨道 debris 增加对航天安全构成的威胁，以及主动去除 debris (ADR) 任务规划复杂性的问题。论文提出了一种基于深度强化学习的自主决策规划模型，能够训练轨道转移飞行器 (OTV) 最优去除 sequencing，并能够自主适应动态轨道条件和任务要求。该模型的应用将显著提高 ADR 任务的经济性和技术有效性。

Sep, 2024

重新审视太空任务规划：一种基于强化学习的多碎片会合方法

本研究针对太空碎片会合任务中的规划效率问题，提出了一种基于深度强化学习的 masked PPO 算法的新应用。该方法通过优化碎片访问顺序，显著缩短了任务总时间，比遗传算法和贪婪算法分别减少了约 10.96% 和 13.66%。这一创新方法为提升太空碎片清除任务的规划策略提供了新的思路。

Sep, 2024