IJCAIMay, 2024

使用多智能体 A* 近似求解 Dec-POMDP

TL;DR我们提出了一种基于 A * 算法的有限时域 Dec-POMDPs 策略计算方法,目标是以可扩展性为代价来牺牲最优性,在较大的时域内取得竞争性性能,主要特点是使用聚类的滑动窗口内存、修剪 A * 搜索树以及使用新颖的 A * 启发式策略。我们的实验结果显示与最先进的方法相比有竞争力的性能,并且在多个基准测试中取得了更优异的表现。此外,我们还提供了一种基于 A * 算法的找到最优值上界的方法,适用于长时域问题。主要特点是定期揭示状态的新启发式方法,从而限制可达置信度的数量。我们的实验证明了该方法的有效性和可扩展性。