在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

Nov, 2023

在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice

Idan Lev-Yehudi, Moran Barenboim, Vadim Indelman

TL;DR使用简化观测模型进行规划，同时保证解决方案的质量，无需在规划过程中访问昂贵的模型，以统计总变差距离为基础提出了一种新的概率界，通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距，并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。

Abstract

Solving partially observable markov decision processes (POMDPs) with high dimensional and continuous observations, such as camera images, is required for many real life robotics and planning problems. Recent researches suggested machine learned probabilistic models as observation model

partially observable markov decision processes high dimensional and continuous observations simplified observation models probabilistic bound online pomdp solver

发现论文，激发创造

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

风险厌恶 POMDP 的简化与绩效保证

在部分可观察域中，面临不确定性的风险规避决策是人工智能领域的一个基本问题，对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程（POMDPs）建模并采用回报的条件风险价值（CVaR）作为值函数。这项工作开发了一个简化框架，以加快值函数的评估速度，并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法，该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限，通过假设两个累积分布之间的界限，可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后，我们推导出 POMDP 设置下 CVaR 值函数的界限，并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数，而无需实时访问计算代价高昂的模型。接着，我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化，并可以同时简化观察和状态转移模型。

Jun, 2024

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

面向不确定性的机器人强鲁棒规划中的 POMDP-lite

本文介绍了一种子类部分可观察马尔可夫决策过程 (POMDP), 即 POMDP-lite，使用该方法解决机器人任务时计算复杂度减小，我们开发了一种基于贝叶斯强化学习算法来解决 POMDP-lite 模型，效果优于当前最先进的 POMDP 算法且在适当条件下该算法接近贝叶斯最优。

Feb, 2016

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划

本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展，以消除未测量混淆变量所引起的误差。同时，我们提出了一种离线学习因果模型的方法，用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法，并表明所学习的因果模型非常准确，而我们的规划方法比 AR-DESPOT 更加抗干扰，并产生更高性能的策略。

Apr, 2023

朝着在 POMDP 中使用完全可观察策略

本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法，该方法基于全可观察版本的策略，并定义了一个基于价值函数的混合值函数，可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架，并介绍了在 Reconnaissance Blind TicTacToe 任务上建立的基准测试。在此基准测试中，我们展示了多模式策略胜过忽略多模式存在的策略。

Jul, 2022