众多智能体 POMDP 中的分解式在线规划

Dec, 2023

众多智能体 POMDP 中的分解式在线规划

Factored Online Planning in Many-Agent POMDPs

Maris F.L. Galesloot, Thiago D. Simao, Sebastian Junges, Nils Jansen

TL;DR在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解决了价值估计和状态估计的挑战，提出了基于稀疏粒子滤波信念树的在线规划算法，该算法在少量智能体的情况下表现出竞争性的性能，并在多智能体的基准测试中胜过现有算法。

Abstract

In centralized multi-agent systems, often modeled as multi-agent partially observable Markov decision processes (mpomdps), the action and observation spaces grow exponentially with the number of agents, making th

multi-agent systems mpomdps value estimation belief state estimation online planning

发现论文，激发创造

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

多智能体场景下的序列规划框架

本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Sep, 2011

具有连续状态、动作和观测空间的 POMDP 在线算法

本文探讨了解决离散状态空间和连续状态、动作和观测空间间问题的双重渐进扩展法，并提出和评估了两种利用加权粒子滤波克服此问题的新算法 POMCPOW 和 PFT-DPW，并通过仿真结果表明这些修改可以成功地解决以前的问题。

Sep, 2017

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023

用蒙特卡罗抽样方法逼近交互式 POMDP 模型

本文讨论利用基于粒子滤波算法的互动蒙特卡洛树搜索算法来解决复杂互动式部分可观测 Markov 决策过程 (I-POMDPs) 中的信仰空间复杂度问题以及在构建前向搜索树时使用 “采样可能性最大的观测” 这一补充方法来缓解策略空间的复杂度，这两种方法结合使用可以有效提高 POMDPs 的解决效率和准确度，经过实验验证效果显著。

Jan, 2014

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

通过信念压缩寻找近似的 POMDP 解决方案

该研究提出了一种用于解决大型部分观察马尔可夫决策过程（POMDPs）的算法，通过降低置信度空间的维度来进行策略逼近，其中采用了指数族主成分分析方法，并且该算法成功地应用于合成问题和移动机器人导航任务中。

Jun, 2011

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014

带有性能保证的 ρ-POMDP 中的测量简化

该研究论文介绍了一种有效的决策制定方法，通过对高维观测空间进行划分，并利用这种划分提出了分析边界，以求得期望的信息论奖励，进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善，在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。

Sep, 2023

部分可观测任务和运动问题中的信念空间在线重规划

本文提出了一个在线计划和执行系统，使用混合置信状态空间进行确定性代价敏感计划来选择成功概率高的观察行动和连续控制行动，以解决部分可观察问题，并在模拟和真实世界的厨房中展示了高效的解决方案。

Nov, 2019