Dec, 2023

众多智能体 POMDP 中的分解式在线规划

TL;DR在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解决了价值估计和状态估计的挑战,提出了基于稀疏粒子滤波信念树的在线规划算法,该算法在少量智能体的情况下表现出竞争性的性能,并在多智能体的基准测试中胜过现有算法。