带有性能保证的 ρ-POMDP 中的测量简化

Sep, 2023

带有性能保证的 ρ-POMDP 中的测量简化

Measurement Simplification in ρ-POMDP with Performance Guarantees

Tom Yotam, Vadim Indelman

TL;DR该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Abstract

Decision making under uncertainty is at the heart of any autonomous system acting with imperfect information. The cost of solving the decision making problem is exponential in the action and observation spaces, t

decision-making uncertainty autonomous system partitioning planning

发现论文，激发创造

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

在具有概率保证和实践的连续 POMDP 规划中简化复杂的观测模型

使用简化观测模型进行规划，同时保证解决方案的质量，无需在规划过程中访问昂贵的模型，以统计总变差距离为基础提出了一种新的概率界，通过广义化最近的粒子 - 信念 MDP 收敛性界限的结果来限制理论 POMDP 值与简化模型下的经验规划值之间的差距，并演示了如何将这种界限整合到现有的连续在线 POMDP 求解器的常规例程中。

Nov, 2023

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

风险厌恶 POMDP 的简化与绩效保证

在部分可观察域中，面临不确定性的风险规避决策是人工智能领域的一个基本问题，对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程（POMDPs）建模并采用回报的条件风险价值（CVaR）作为值函数。这项工作开发了一个简化框架，以加快值函数的评估速度，并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法，该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限，通过假设两个累积分布之间的界限，可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后，我们推导出 POMDP 设置下 CVaR 值函数的界限，并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数，而无需实时访问计算代价高昂的模型。接着，我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化，并可以同时简化观察和状态转移模型。

Jun, 2024

众多智能体 POMDP 中的分解式在线规划

在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解决了价值估计和状态估计的挑战，提出了基于稀疏粒子滤波信念树的在线规划算法，该算法在少量智能体的情况下表现出竞争性的性能，并在多智能体的基准测试中胜过现有算法。

Dec, 2023

连续时间 POMDP 的近似控制

该研究提出了一个用于具有离散状态和动作空间的连续时间的部分可观察系统的决策框架。通过近似方法来处理大状态空间下的最优决策问题，其中高维过滤分布通过投影到参数化分布族进行了近似，结合完全可观察系统的控制启发式方法获得了可扩展的策略。在多个部分观测系统上，包括队列系统和化学反应网络，验证了该方法的有效性。

Feb, 2024

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022

解决方案质量无任何妥协：通过自适应多层简化加速基于信念的连续 POMDPs

基于置信度树和 MCTS 的自适应多层简化理论可加速连续 POMDP 在线规划，不损失解决方案质量。

Oct, 2023