提出了一种在部分可观察的马尔可夫决策过程(POMDP)中实现满足线性时间逻辑公式的策略的方法,该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率,并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域,并为最终策略的性能提供了强大的边界。
Jan, 2020
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程(POMDP)的数学模型和算法,分析它们的特点,并提供适用的决策任务的关键任务特性。
Sep, 2022
本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中,与其他领先的连续观察 POMDP 求解器相比,表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。
Oct, 2022
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011
该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题,其中高维过滤分布通过投影到参数化分布族进行了近似,结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上,包括队列系统和化学反应网络,验证了该方法的有效性。
Feb, 2024
本研究探讨了部分可观察马尔可夫决策过程(POMDPs)的精确算法,利用动态规划将值函数的分段线性和凸表示转换为另一个表示,并比较了增量修剪方法的变种与更早的算法在理论和实证方面的差异。我们发现增量修剪是目前解决 POMDPs 最有效的精确方法。
Feb, 2013
本文针对传统 POMDP 学习在简单环境下的效率问题,提出了一种新的算法 HOMDP,并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。
Jan, 2023
本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法,该方法基于全可观察版本的策略,并定义了一个基于价值函数的混合值函数,可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架,并介绍了在 Reconnaissance Blind TicTacToe 任务上建立的基准测试。在此基准测试中,我们展示了多模式策略胜过忽略多模式存在的策略。
Jul, 2022