具有连续状态、动作和观测空间的 POMDP 在线算法

Sep, 2017

具有连续状态、动作和观测空间的 POMDP 在线算法

Online algorithms for POMDPs with continuous state, action, and observation spaces

Zachary Sunberg, Mykel Kochenderfer

TL;DR本文探讨了解决离散状态空间和连续状态、动作和观测空间间问题的双重渐进扩展法，并提出和评估了两种利用加权粒子滤波克服此问题的新算法 POMCPOW 和 PFT-DPW，并通过仿真结果表明这些修改可以成功地解决以前的问题。

Abstract

Online solvers for partially observable markov decision processes have been applied to problems with large discrete state spaces, but continuous state, action, and observation spaces remain a challenge. This paper begins by investigating →

partially observable markov decision processes double progressive widening pomcpow pft-dpw weighted particle filtering

发现论文，激发创造

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

众多智能体 POMDP 中的分解式在线规划

在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解决了价值估计和状态估计的挑战，提出了基于稀疏粒子滤波信念树的在线规划算法，该算法在少量智能体的情况下表现出竞争性的性能，并在多智能体的基准测试中胜过现有算法。

Dec, 2023

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

连续时间 POMDP 的近似控制

该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Feb, 2024

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

搜索有限策略空间求解 POMDPs

本文研究部分可观察马尔可夫决策过程（POMDPs）的解决方案，探讨如何从有限状态自动机的限制集合中找到最佳策略，进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。

Jan, 2013

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

多智能体场景下的序列规划框架

本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Sep, 2011

用蒙特卡罗抽样方法逼近交互式 POMDP 模型

本文讨论利用基于粒子滤波算法的互动蒙特卡洛树搜索算法来解决复杂互动式部分可观测 Markov 决策过程 (I-POMDPs) 中的信仰空间复杂度问题以及在构建前向搜索树时使用 “采样可能性最大的观测” 这一补充方法来缓解策略空间的复杂度，这两种方法结合使用可以有效提高 POMDPs 的解决效率和准确度，经过实验验证效果显著。

Jan, 2014

在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

使用简化观测模型进行规划，同时保证解决方案的质量，无需在规划过程中访问昂贵的模型，以统计总变差距离为基础提出了一种新的概率界，通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距，并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。

Nov, 2023