本文研究了带安全可达性目标的部分可观测马尔可夫决策过程(POMDPs),提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略,并通过实验结果表明,该方法能够在大量信念空间中高效地搜索有效策略。
Jan, 2018
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题,并提出了两种领域独立的启发式算法,一种基于经典规划中著名的 h_add 启发式算法,另一种在信念空间中计算并考虑信息价值。
该研究考虑了部分可观察的马尔可夫决策过程(POMDP),并研究了一个问题,即如何在资源有限制的情况下实现目标最小化成本。该研究设计了一种算法用于计算特定情况下的 “防护措施”,并将该防护措施与启发式搜索算法相结合,实现了对该问题的解决。通过实验证明了该算法的实用性。
Nov, 2022
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
在不确定环境中安全规划时,智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法,通过学习神经网络近似的最优值和策略,并引入了额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值,引入了 Δ-MCTS,以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试,结果表明,通过将安全限制与目标分离,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。
May, 2024
本文提出了一种混合在线部分可观察马尔可夫决策过程规划系统,针对多模态不确定性对自主导航的影响。通过使用多查询运动规划和在线 POMDP 求解器,我们实现了更加灵活和高效的实时方法,从而更好地解决了密集人群和障碍物之间的自主导航问题,并获得了更高的安全性和效率。
Jun, 2022
该研究介绍了动态模型预测屏蔽(DMPS)方法,在维持可证安全的同时优化强化学习目标,通过采用本地计划器来动态选择安全恢复动作,从而在短期进展和长期回报上实现最大化,证明了该方法能确保训练期间和训练后的安全性,并收敛于在实践中既高性能又安全的策略。
本文提出基于有限状态控制器的有界策略迭代方法,通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略,并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。
Sep, 2019
本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite, 使用该方法解决机器人任务时计算复杂度减小,我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型,效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。
Feb, 2016