大规模 POMDP 的即时点估计近似

Sep, 2011

Anytime Point-Based Approximations for Large POMDPs

J. Pineau, G. Gordon, S. Thrun

TL;DR介绍了一种名为 PBVI 的基于点值备份策略的实时部分可观测的马可夫决策过程，该策略通过选择信息信念点提高了算法效率，同时在标准的 POMDP 域和现实机器人任务中进行了实验评估。

Abstract

The partially observable markov decision process has long been recognized as a rich framework for real-world planning and control problems, especially in robotics. However exact solutions in this framework are ty

partially observable markov decision process value backups belief points point-based value iteration robotics

发现论文，激发创造

Perseus: POMDPs 随机基于点的价值迭代

介绍了一种基于点集采样的算法 ——Perseus，使用该算法可以解决大规模的部分可观测马尔可夫决策过程问题，其通过随机选择子集进行值迭代，提高信念集中每个点的值，特别适用于连续动作空间。

Sep, 2011

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

ChronosPerseus: 随机基于点的价值迭代与重要性采样在 POSMDPs 中的应用

本文提出了一种新的基于重要性采样的 PBVI 算法 -- ChronosPerseus，它支持在决策中整合连续流逝时间分布，并能有效减少算法的复杂度。算法还适用于情节式和非情节式问题，并提供了两个实例作为示范。

Jul, 2022

基于点的 POMDP 算法：改进分析与实现

该论文讲述了针对基于点的 POMDP 值迭代算法的复杂度界限，提出了一个基于折扣可达性并结合历史和维度的新界限，并介绍了改进的启发式搜索值迭代算法的最新进展。

Jul, 2012

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

基于点的价值迭代算法用于神经符号 POMDPs

本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法，即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs)；提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC)，并且扩展将 Bellman 备份应用于此表示，设计了两种值迭代算法，即经典的值迭代算法和基于点的近似方法。通过两个车辆停车和飞行器避碰案例研究，展示了该方法的实际应用。

Jun, 2023

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

众多智能体 POMDP 中的分解式在线规划

在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解决了价值估计和状态估计的挑战，提出了基于稀疏粒子滤波信念树的在线规划算法，该算法在少量智能体的情况下表现出竞争性的性能，并在多智能体的基准测试中胜过现有算法。

Dec, 2023

用蒙特卡罗抽样方法逼近交互式 POMDP 模型

本文讨论利用基于粒子滤波算法的互动蒙特卡洛树搜索算法来解决复杂互动式部分可观测 Markov 决策过程 (I-POMDPs) 中的信仰空间复杂度问题以及在构建前向搜索树时使用 “采样可能性最大的观测” 这一补充方法来缓解策略空间的复杂度，这两种方法结合使用可以有效提高 POMDPs 的解决效率和准确度，经过实验验证效果显著。

Jan, 2014