多智能体场景下的序列规划框架

Sep, 2011

A Framework for Sequential Planning in Multi-Agent Settings

P. Doshi, P. J. Gmytrasiewicz

TL;DR本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上，将代理模型纳入到状态空间中，使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念，并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察，但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。

Abstract

This paper extends the framework of partially observable Markov decision processes (POMDPs) to multi-agent settings by incorporating the notion of agent models into the state space. Agents maintain beliefs over physical states of the environment and over models of other agents, and the

partially observable markov decision processes (pomdps)multi-agent settings agent models belief states bayesian updates

发现论文，激发创造

众多智能体 POMDP 中的分解式在线规划

在集中式多智能体系统中，使用多智能体部分可观察马尔可夫决策过程（MPOMDPs）进行建模，其中动作和观察空间随着智能体数量呈指数增长，使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法，同时解决了价值估计和状态估计的挑战，提出了基于稀疏粒子滤波信念树的在线规划算法，该算法在少量智能体的情况下表现出竞争性的性能，并在多智能体的基准测试中胜过现有算法。

Dec, 2023

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

具有随时确定性保证的在线 POMDP 规划

通过简化解决方案与理论上最优解之间的确定性关系，解决了在计算上昂贵的部分可观测马尔可夫决策过程（POMDPs）困难，为自主代理在不完全信息环境下的规划提供了确定性界限。

Oct, 2023

部分可观察马尔可夫决策过程的基于点的模型检验方法

提出了一种在部分可观察的马尔可夫决策过程（POMDP）中实现满足线性时间逻辑公式的策略的方法，该方法使用基于点的价值迭代方法来高效地近似满足所需逻辑公式的最大概率，并计算相应的置信状态策略。证明该方法适用于大型 POMDP 领域，并为最终策略的性能提供了强大的边界。

Jan, 2020

POMDP 的粒子信念逼近的最优性保证

本文提出了利用基于粒子滤波置信转移模型的有限样本粒子置信 MDP 近似解决 POMDP 的方法。在五个基准 POMDP 实验中，与其他领先的连续观察 POMDP 求解器相比，表明这种方法可以实现与其他领先的连续观察 POMDP 求解器竞争力的表现。

Oct, 2022

朝着在 POMDP 中使用完全可观察策略

本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法，该方法基于全可观察版本的策略，并定义了一个基于价值函数的混合值函数，可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架，并介绍了在 Reconnaissance Blind TicTacToe 任务上建立的基准测试。在此基准测试中，我们展示了多模式策略胜过忽略多模式存在的策略。

Jul, 2022

利用领域知识提高 POMDP 信念估计

使用 Jeffrey 的规则和标准化，将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法，表明领域知识可以减少数据需求，提高使用强化学习的 POMDP 策略学习的性能。

Feb, 2023

用蒙特卡罗抽样方法逼近交互式 POMDP 模型

本文讨论利用基于粒子滤波算法的互动蒙特卡洛树搜索算法来解决复杂互动式部分可观测 Markov 决策过程 (I-POMDPs) 中的信仰空间复杂度问题以及在构建前向搜索树时使用 “采样可能性最大的观测” 这一补充方法来缓解策略空间的复杂度，这两种方法结合使用可以有效提高 POMDPs 的解决效率和准确度，经过实验验证效果显著。

Jan, 2014

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

Wasserstein 信仰者：通过可靠潜在空间模型学习部分可观测环境的信仰更新

本文提出了 Wasserstein-Belief-Updater (WBU)，一种强化学习算法，它学习 POMDP 的潜在模型和信仰更新的近似，并具有理论保证，确保输出的信仰可以学习最优值函数。

Mar, 2023