具有随时确定性保证的在线 POMDP 规划

Oct, 2023

具有随时确定性保证的在线 POMDP 规划

Online POMDP Planning with Anytime Deterministic Guarantees

Moran Barenboim, Vadim Indelman

TL;DR通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Abstract

autonomous agents operating in real-world scenarios frequently encounter uncertainty and make decisions based on incomplete information. Planning under uncertainty can be mathematically formalized using partially observable Markov decision processes (POMDPs). However, finding an optima

autonomous agents planning under uncertainty partially observable markov decision processes approximate algorithms deterministic bounds

发现论文，激发创造

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划

本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展，以消除未测量混淆变量所引起的误差。同时，我们提出了一种离线学习因果模型的方法，用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法，并表明所学习的因果模型非常准确，而我们的规划方法比 AR-DESPOT 更加抗干扰，并产生更高性能的策略。

Apr, 2023

确定性 POMDP 再探

研究了一个 POMDP 子类 —— 确定性 POMDP，它具有确定性动作和观测，能够捕捉许多有趣和具有挑战性的问题，并允许更有效的算法，同时提供了与 AND/OR 搜索问题和算法的基本属性以及它们的计算复杂性的结果。

May, 2012

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

使用简化观测模型进行规划，同时保证解决方案的质量，无需在规划过程中访问昂贵的模型，以统计总变差距离为基础提出了一种新的概率界，通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距，并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。

Nov, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023