利用动力无关的强化学习实现低推力轨道转移

Oct, 2022

利用动力无关的强化学习实现低推力轨道转移

Low-Thrust Orbital Transfer using Dynamics-Agnostic Reinforcement Learning

Carlos M. Casas, Belen Carro, Antonio Sanchez-Esguevillas

TL;DR该论文研究了使用强化学习的方法来优化低推力卫星的轨迹设计和自主控制。研究表明这种方法可以学习出几乎最优的引导定律，并且对环境动态的不确定性有很好的适应性。

Abstract

low-thrust trajectory design and in-flight control remain two of the most challenging topics for new-generation satellite operations. Most of the solutions currently implemented are based on reference trajectorie

low-thrust trajectory design in-flight control artificial intelligence reinforcement learning satellite dynamics

发现论文，激发创造

分布式卫星路由的多主体深度强化学习

该研究介绍了一种用于低地球轨道卫星链路的多智能体深度强化学习方法（MA-DRL），通过融合全局深度神经网络以及本地预训练 DNN，实现离线学习最优路径并快速适应网络和流量变化，在线实现高效分布式路由。

Feb, 2024

连续深度强化学习在分散卫星路由中的应用

这篇论文介绍了基于持续的深度强化学习的低轨卫星星座分散路由的完整解决方案，采用多智能体方法，其中每个卫星作为一个独立的决策制定智能体，通过从附近的智能体接收的反馈来获取环境的有限知识。

May, 2024

基于深度强化学习的曳杆目标多智能体检测

本研究提出了一种用于自主、鲁棒、去中心化的旋转目标多智能体检查的层次学习方法。采用深度强化学习训练高水平计划器和导航计划器处理点对点导航，对于未知目标几何形状和来自传感器输入的更高保真度的信息论目标，此方法可拓展至鲁棒策略，并在受限信息下成功地检查超过 90% 的非凸旋转目标。

Feb, 2023

自主载荷热控制

通过利用卫星间越来越智能化的优势，提出了一种基于深度强化学习和软优势演员 - 评论家算法的框架来学习卫星上的热控策略，实验证明该框架能够学习控制处理功率以维持温度在操作范围内，并补充传统的热控系统。

Jul, 2023

基于强化学习的低轨卫星星座中认知延迟 / 干扰容忍网络节点管理

本研究提出了一种基于强化学习策略（A2C）的中央集中式管理智能深空节点的方法，该节点用于管理低轨卫星 “LEO” 卫星星座场景中的延迟 / 中断容忍网络（DTN）节点，以最大化交付成功率和最小化网络资源消耗成本，同时考虑节点内存利用率。实验表明，使用 A2C 策略可以平衡交付成功率和成本，提供最高的奖励和最低的节点内存利用率。

Sep, 2022

实现计算有限可重复使用火箭的稳定降落：一种量子强化学习方法

可重复使用火箭的着陆阶段对控制系统的要求提出了新的挑战，通过整合量子强化学习技术到控制系统中，可以提高计算效率、减少内存需求，并实现更稳定和可预测的性能，成为解决可重复使用火箭场景下轻量化、内存需求较少的好方案。

Oct, 2023

在小行星带中计算低推力转移：天体动力学操纵与机器学习方法之比较

通过比较分析法和机器学习方法，本研究建立了一个数据集，其中包含了大约三百万种不同时间和燃料优化控制问题的传输方式，对于长传输，机器学习方法显示出更好的性能，这对于在小行星带中的任务机会的有效探索具有重要意义。

May, 2024

基于深层模型的强化学习学习飞行

通过学习无人机动力学的概率模型，我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器，完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。

Mar, 2020

太空航天器自主决策规划以避免碰撞：一种强化学习方法

基于强化学习技术的自主决策能力的实施是为了在空间复杂环境中，将碰撞规避操控的决策过程委托给太空船自动执行，以实现更快速的响应和高度分散的操作。

Oct, 2023

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023