安全的 POMDP 在线规划方法之护盾技术

Sep, 2023

安全的 POMDP 在线规划方法之护盾技术

Safe POMDP Online Planning via Shielding

Shili Sheng, David Parker, Lu Feng

TL;DR本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程（POMDPs）中的不确定性问题，其中通过计算和整合防护盾到在线规划算法（POMCP）中以确保安全性。实验结果表明，该方法在大型 POMDPs 中成功地保证了安全性，并对在线规划的运行时间几乎没有影响。

Abstract

partially observable markov decision processes (pomdps) have been widely used in many robotic applications for sequential decision-making under uncertainty. POMDP online planning algorithms such as Partially Obse

partially observable markov decision processes pomdps safety guarantees almost-sure reach-avoid specifications shields

发现论文，激发创造

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023

资源受限的目标 POMDP 中的屏蔽

该研究考虑了部分可观察的马尔可夫决策过程（POMDP），并研究了一个问题，即如何在资源有限制的情况下实现目标最小化成本。该研究设计了一种算法用于计算特定情况下的 “防护措施”，并将该防护措施与启发式搜索算法相结合，实现了对该问题的解决。通过实验证明了该算法的实用性。

Nov, 2022

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

在不确定环境中安全规划时，智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法，通过学习神经网络近似的最优值和策略，并引入了额外的网络头来估计置信度下的失败概率，以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值，引入了 Δ-MCTS，以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试，结果表明，通过将安全限制与目标分离，可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。

May, 2024

带拓展空间 POMDP 规划的人群意图感知导航

本文提出了一种混合在线部分可观察马尔可夫决策过程规划系统，针对多模态不确定性对自主导航的影响。通过使用多查询运动规划和在线 POMDP 求解器，我们实现了更加灵活和高效的实时方法，从而更好地解决了密集人群和障碍物之间的自主导航问题，并获得了更高的安全性和效率。

Jun, 2022

动态模型预测屏蔽用于可证明安全的强化学习

该研究介绍了动态模型预测屏蔽（DMPS）方法，在维持可证安全的同时优化强化学习目标，通过采用本地计划器来动态选择安全恢复动作，从而在短期进展和长期回报上实现最大化，证明了该方法能确保训练期间和训练后的安全性，并收敛于在实践中既高性能又安全的策略。

May, 2024

不确定性下的风险规避规划

本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Sep, 2019

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016