使用双层马尔可夫决策过程进行空间任务的应急计划

Feb, 2024

使用双层马尔可夫决策过程进行空间任务的应急计划

Contingency Planning Using Bi-level Markov Decision Processes for Space Missions

Somrita Banerjee, Edward Balaban, Mark Shirley, Kevin Bradner, Marco Pavone

TL;DR该研究侧重于科学任务的自主应变规划，通过允许从状态空间的任何非正常点快速计算决策，以应对与正常任务计划的延误或偏离。通过提出双层马尔可夫决策过程（MDP）框架，改进了计算可处理性，同时与现有任务规划实践相吻合并增强了基于人工智能的解决方案的可解释性和可信度，通过将任务规划 MDP 转化为双层 MDP 来讨论了这一框架，并在 RoverGridWorld 上对其进行了测试，这是一个用于漫游任务规划的改进的 GridWorld 环境。我们展示了使用双层 MDP 方法实现的计算可处理性和近似最佳策略，突出了问题复杂性增加时计算时间和政策最优性之间的权衡。这项研究有助于更高效和灵活地应对科学任务的应变规划。

Abstract

This work focuses on autonomous contingency planning for scientific missions by enabling rapid policy computation from any off-nominal point in the state space in the event of a delay or deviation from the nomina

autonomous contingency planning policy computation markov decision processes bi-level mdp rovergridworld

发现论文，激发创造

短期预测实现长期规划

通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Feb, 2016

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

基于策略的抽象化方法以实现鲁棒机器人控制

本文提出了一种可扩展的控制算法，使部署的移动机器人系统能够在充分考虑其概率信念的情况下做出高层次决策。我们的方法基于分层控制器和分层 MDPs 的相关文献，已成功在匹兹堡附近的一家养老院部署。据我们所知，这项工作是将 POMDPs 应用于高级机器人控制问题的独特实例。

Oct, 2012

具有下层背景上下文的随机双层优化与决策过程

我们介绍了一种基于情境马尔可夫决策过程（CMDP）的双层优化策略模型（BO-CMDP），该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程（MDP）的设定，在各种应用中寻求最佳决策策略，进而应用于 MDP 模型设计、税务设计、奖励塑造和动态机制设计等领域。我们提出了一种基于梯度下降的随机超级策略（HPGD）算法用于求解 BO-CMDP 问题，并证明了其收敛性。该算法只利用随从者的轨迹观察，使得随从者可以使用任何训练过程而领导者无需了解具体算法，使得该模型适用于各种实际应用场景。我们还考虑了领导者能够影响随从者训练的情形，并提出了一种加速算法。我们通过实验证明了我们算法的性能。

Jun, 2024

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

深度贝叶斯强化学习用于航天器姿态调整和对接

我们介绍了一种新颖的贝叶斯演员 - 评论家强化学习算法，用于学习具有稳定性保证的控制策略，以实现自主航天器的接近操纵和对接。该算法应用了李雅普诺夫理论原理，将时间差分学习视为一个受约束的高斯过程回归问题。结合高斯过程和深度核学习，将状态值函数表示为李雅普诺夫函数。我们开发了一种新颖的贝叶斯积分政策优化过程来分析计算策略梯度，并集成了基于李雅普诺夫的稳定性约束。该算法实验性地在航天器空气轴承试验台上进行了评估，表现出令人印象深刻和有希望的性能。

Nov, 2023

一种自主决策系统的分层控制框架：HMDP 和 MPC 的整合

本文提出了一种全面的分层控制框架，用于机器人和自主系统中的自主决策。通过综合建模、设计问题的制定、控制设计和稳定性分析，提出了这种具有挑战性问题的综合设计过程和框架，并处理了连续系统动力学和离散马尔科夫决策过程在高层决策中的复杂相互作用。通过使用模型预测控制概念，提出了一个决策者设计方案，通过精心设计参与方案的关键要素，证明了所提出的自主决策方案的递归可行性和稳定性的保证，并将该框架应用于智能车辆的自主换道系统的开发。

Jan, 2024

不确定环境下的规划元推理

提出了一种基于 metareasoning 的在线规划模型，用于解决实际场景下规划时间成本与策略改进的平衡问题，并通过引入 BRTDP 规划算法的特殊性质，提出了近似的元推理过程。

May, 2015