基于强化学习的卫星星座重配置与再任务分配研究

Sep, 2024

基于强化学习的卫星星座重配置与再任务分配研究

Reinforcement Learning-enabled Satellite Constellation Reconfiguration and Retasking for Mission-Critical Applications

Hassan El Alami, Danda B. Rawat

TL;DR本文针对卫星星座在重配置与再任务方面的研究空白，提出了一种系统建模方法，并引入了强化学习技术，如深度Q网络和近端策略优化，来应对卫星故障后的挑战。研究结果表明，这些方法在任务完成率和响应时间等指标上表现出色，具有重要的实际应用潜力。

Abstract

The development of satellite constellation applications is rapidly advancing due to increasing user demands, reduced operational costs, and technological advancements. However, a significant gap in the existing literature concerns Reconfiguration and →

发现论文，激发创造

基于强化学习的低轨卫星星座中认知延迟/干扰容忍网络节点管理

本研究提出了一种基于强化学习策略（A2C）的中央集中式管理智能深空节点的方法，该节点用于管理低轨卫星“LEO”卫星星座场景中的延迟/中断容忍网络（DTN）节点，以最大化交付成功率和最小化网络资源消耗成本，同时考虑节点内存利用率。实验表明，使用A2C策略可以平衡交付成功率和成本，提供最高的奖励和最低的节点内存利用率。

Sep, 2022

利用图神经网络方法进行纳米卫星任务调度：学习混合整数模型的洞见

本研究探讨了如何使用图神经网络（GNN）更有效地调度纳米卫星任务，并将优化问题表示为二分图。同时，应用可解释性人工智能（XAI）确定对学习表现影响最大的要素。结果表明GNN对于调度纳米卫星任务是一种可能有效的方法，并突出了可解释性机器学习模型在挑战性组合优化问题上的优点。

Mar, 2023

基于能耗的CubeSat任务调度的安全层次强化学习

该论文提出了一种针对低地球轨道下CubeSat任务调度进行优化的分层强化学习方法，该方法通过集成相似性注意力编码器（SABE）进行任务优先级排序和多层感知器（MLP）进行能源消耗预测，实现了全局任务分配的高层策略和实时调整的低层策略，从而创建了一个安全和容错的CubeSat任务调度系统。通过模拟结果验证了分层强化学习方法在任务收敛性和成功率方面的优势，相对于MADDPG模型和传统随机调度，在多个CubeSat配置下表现出更好的性能。

Sep, 2023

集成卫星地面网络的动态路由：一种受限多智能体强化学习方法

通过提出一种名为CMADR的新型约束多智能体强化学习动态路由算法，以高效地平衡目标改进与约束满足，该算法能有效减少数据包延迟最少21%和15%，并满足严格的能量消耗和丢包率要求，优于多个基准算法。

Dec, 2023

分布式卫星路由的多主体深度强化学习

该研究介绍了一种用于低地球轨道卫星链路的多智能体深度强化学习方法（MA-DRL），通过融合全局深度神经网络以及本地预训练DNN，实现离线学习最优路径并快速适应网络和流量变化，在线实现高效分布式路由。

Feb, 2024

连续深度强化学习在分散卫星路由中的应用

这篇论文介绍了基于持续的深度强化学习的低轨卫星星座分散路由的完整解决方案，采用多智能体方法，其中每个卫星作为一个独立的决策制定智能体，通过从附近的智能体接收的反馈来获取环境的有限知识。

May, 2024

研究选择对于深度强化学习在航天控制中的影响

该论文研究了使用离散动作空间，以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响，针对检查任务和停靠任务的需求。结果显示对于检查任务，有限数量的离散选择导致最佳性能，而对于停靠任务，连续控制导致最佳性能。

May, 2024

一个针对卫星网络的开源多智能体深度强化学习路由模拟器

本文介绍了一个针对低地球轨道卫星网络的分组路由的开源模拟器，支持传统的迪杰斯特拉（Dijkstra）算法以及更先进的学习解决方案，还使用了基于事件的方法和 SimPy 模块实现精确的数据包创建、路由和排队模拟，结果表明与传统方法相比，基于强化学习的路由策略能显著改善端到端（E2E）延迟。

Jul, 2024

奖励塑造与路线优化：针对卫星星座网络的多智能体深度Q网络研究

本文针对卫星mega星座网络中的动态路由问题，提出了一种基于多智能体深度Q网络的新方法，以增强网络适应性和鲁棒性。研究重点在于奖励塑造与训练收敛的量化，从而实现延迟和负载平衡的联合优化，提出了一种结合集中学习与分散控制的混合解决方案。此工作为处理日益复杂的卫星网络流量提供了有效的机器学习策略。

Aug, 2024

基于图神经网络的地球观测卫星调度

本研究解决了地球观测卫星调度中的优化问题，该问题面临请求观测数量过多和约束条件复杂的挑战。本文提出了一种基于图神经网络和深度强化学习的新方法，通过从图中提取信息并驱动搜索，从而优化观测的选择与调度。结果表明，该方法在小规模问题上学习有效，能够推广到更大的实际应用中，并与传统方法相比表现出极具竞争力的性能。

Aug, 2024