深度贝叶斯强化学习用于航天器姿态调整和对接

Nov, 2023

深度贝叶斯强化学习用于航天器姿态调整和对接

Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking

Desong Du, Naiming Qi, Yanfang Liu, Wei Pan

TL;DR我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Abstract

In the pursuit of autonomous spacecraft proximity maneuvers and docking(PMD), we introduce a novel →

autonomous spacecraft proximity maneuvers docking bayesian actor-critic reinforcement learning lyapunov theory

发现论文，激发创造

通过近端策略优化和蒙特卡罗树搜索实现机动决策

基于邻近策略优化和蒙特卡洛树搜索的方法，用于解决机动决策问题，通过使用邻近策略优化训练智能体，并使用价值网络作为训练目标，以及基于价值网络和每个节点的访问次数，使用蒙特卡洛树搜索找到比随机动作更有预期回报的动作，提高训练性能，实验验证了所提方法的有效性和可行性。

Aug, 2023

太空航天器自主决策规划以避免碰撞：一种强化学习方法

基于强化学习技术的自主决策能力的实施是为了在空间复杂环境中，将碰撞规避操控的决策过程委托给太空船自动执行，以实现更快速的响应和高度分散的操作。

Oct, 2023

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

使用双层马尔可夫决策过程进行空间任务的应急计划

该研究侧重于科学任务的自主应变规划，通过允许从状态空间的任何非正常点快速计算决策，以应对与正常任务计划的延误或偏离。通过提出双层马尔可夫决策过程（MDP）框架，改进了计算可处理性，同时与现有任务规划实践相吻合并增强了基于人工智能的解决方案的可解释性和可信度，通过将任务规划 MDP 转化为双层 MDP 来讨论了这一框架，并在 RoverGridWorld 上对其进行了测试，这是一个用于漫游任务规划的改进的 GridWorld 环境。我们展示了使用双层 MDP 方法实现的计算可处理性和近似最佳策略，突出了问题复杂性增加时计算时间和政策最优性之间的权衡。这项研究有助于更高效和灵活地应对科学任务的应变规划。

Feb, 2024

通过深度强化学习管理具有大状态和动作空间的工程系统

本文提出了一种综合的深度强化学习框架 - DCMAC，使用深度函数近似和分解表示系统动作来提供高维空间中大型多组件系统的高效生命周期策略，相对于基于时间、条件和周期策略的优化基线，DCMAC 表现更好。

Nov, 2018

实现计算有限可重复使用火箭的稳定降落：一种量子强化学习方法

可重复使用火箭的着陆阶段对控制系统的要求提出了新的挑战，通过整合量子强化学习技术到控制系统中，可以提高计算效率、减少内存需求，并实现更稳定和可预测的性能，成为解决可重复使用火箭场景下轻量化、内存需求较少的好方案。

Oct, 2023

利用动力无关的强化学习实现低推力轨道转移

该论文研究了使用强化学习的方法来优化低推力卫星的轨迹设计和自主控制。研究表明这种方法可以学习出几乎最优的引导定律，并且对环境动态的不确定性有很好的适应性。

Oct, 2022

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018