解决层次化信息共享 Dec-POMDPs 的广义形式博弈方法
探讨了具有部分状态信息的分布式智能体的规划问题,介绍了对 MDP 和 POMDP 模型的推广,研究表明分散控制与集中控制在马尔可夫过程中的根本差异,相关问题不适合使用多项式时间算法来求解,需要使用双指数时间算法求解。
Jan, 2013
本研究提出了一种分散式随机控制的普适模型,称之为部分历史共享信息结构。在该模型中,每一时刻控制器都要分享他们的部分观察历史和控制历史。基于所有控制器共同知晓的信息,将分散式问题从一个协调者的角度重构为等价的集中式问题,并提出了一种解决这个等价问题的方法。相较于已有的方法,这种方法是更简单、综合的,能够提供更好的结构性和动态规划方案。
Sep, 2012
本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC,称为 MC-JESP,实验证明其竞争力甚至优于使用显式模型的许多离线方法
May, 2023
我们提出了一种基于 A * 算法的有限时域 Dec-POMDPs 策略计算方法,目标是以可扩展性为代价来牺牲最优性,在较大的时域内取得竞争性性能,主要特点是使用聚类的滑动窗口内存、修剪 A * 搜索树以及使用新颖的 A * 启发式策略。我们的实验结果显示与最先进的方法相比有竞争力的性能,并且在多个基准测试中取得了更优异的表现。此外,我们还提供了一种基于 A * 算法的找到最优值上界的方法,适用于长时域问题。主要特点是定期揭示状态的新启发式方法,从而限制可达置信度的数量。我们的实验证明了该方法的有效性和可扩展性。
May, 2024
本文针对协作游戏的均衡点发现问题,提出了一种基于树分解的全新算法。该算法不仅能实现多项实践和理论上的突破,而且思路新颖、高效,可以直接描述相关策略的多面体,因此可以免费获取在相关策略下的平衡点。实验结果证明其在标准游戏套件上的性能超越了现有所有竞争算法,唯一的例外是一类特定的基准游戏。
Sep, 2021
本文提出了两种新的方法来分解和解决大型马尔可夫决策问题(MDPs),分别为部分解耦方法和完全解耦方法。这些方法可以用于发现最优策略或近似最优策略,并提供了一种有效的知识传递框架。
Jan, 2013
文章介绍了分散式不完全可观察马尔可夫决策过程(Dec-POMDPs)的最优解决方法,其中引入了广义多智能体 A * 算法(GMAA*),合成了增量聚类与增量展开,并提出了新的混合启发式表示,能够优化解决大规模 Dec-POMDPs 的问题。
Feb, 2014
介绍了一种基于事实观测随机博弈(FOSG)建模的解决方案,该解决方案的优势在于可以轻松分解问题,且与博弈树等其他建模方式相关联,这为多智能体决策制定提供了启示。
Jun, 2019
本论文提出了一种影响 - 乐观上界策略,用于解决具有非因式价值函数的解离式部分可观察 MDP 的规模为数十甚至数百个代理的规划问题,并在数字上比较了不同的上界,并证明了启发式解法的优化保证,展示了该方法的多代理规划方面的潜在应用。
Feb, 2015