解决层次化信息共享 Dec-POMDPs 的广义形式博弈方法

Feb, 2024

解决层次化信息共享 Dec-POMDPs 的广义形式博弈方法

Solving Hierarchical Information-Sharing Dec-POMDPs: An Extensive-Form Game Approach

Johan Peralez, Aurélien Delage, Olivier Buffet, Jilles S. Dibangoye

TL;DR本文展示了如何在保持优化性的同时，通过分层信息共享来解开多个玩家的决策变量，应用最优性原理将一个单个阶段的子游戏进一步分解为更小的子游戏，从而使我们能够一次进行单个玩家的决策。我们的研究结果表明，利用这些发现的算法可以扩展到更大的多人游戏而不损害优化性。

Abstract

A recent theory shows that a multi-player decentralized partially observable Markov decision process can be transformed into an equivalent single-player game, enabling the application of \citeauthor{bellman}'s principle of optimality to solve the →

multi-player decentralized partially observable markov decision process single-player game optimality hierarchical information sharing extensive-form games

发现论文，激发创造

分散式控制马尔可夫决策过程的复杂性

探讨了具有部分状态信息的分布式智能体的规划问题，介绍了对 MDP 和 POMDP 模型的推广，研究表明分散控制与集中控制在马尔可夫过程中的根本差异，相关问题不适合使用多项式时间算法来求解，需要使用双指数时间算法求解。

Jan, 2013

使用分解法解决不完全信息博弈

介绍了第一种将不完美信息博弈分解为可独立求解的子游戏的技术，并实现了保证最优解的全局博弈解决算法和可生成大于可用存储空间的纳什均衡的离线博弈求解算法。

Mar, 2013

部分历史分享下的分散随机控制：一种共同信息方法

本研究提出了一种分散式随机控制的普适模型，称之为部分历史共享信息结构。在该模型中，每一时刻控制器都要分享他们的部分观察历史和控制历史。基于所有控制器共同知晓的信息，将分散式问题从一个协调者的角度重构为等价的集中式问题，并提出了一种解决这个等价问题的方法。相较于已有的方法，这种方法是更简单、综合的，能够提供更好的结构性和动态规划方案。

Sep, 2012

Dec-POMDP 中的平衡 Monte-Carlo 搜索

本文介绍了一种基于模拟的 POMDP 求解器来构建 Dec-POMDP 的有限状态控制器节点以及一种相关的方法来启发式地导出初始 FSC，称为 MC-JESP，实验证明其竞争力甚至优于使用显式模型的许多离线方法

May, 2023

使用多智能体 A* 近似求解 Dec-POMDP

我们提出了一种基于 A * 算法的有限时域 Dec-POMDPs 策略计算方法，目标是以可扩展性为代价来牺牲最优性，在较大的时域内取得竞争性性能，主要特点是使用聚类的滑动窗口内存、修剪 A * 搜索树以及使用新颖的 A * 启发式策略。我们的实验结果显示与最先进的方法相比有竞争力的性能，并且在多个基准测试中取得了更优异的表现。此外，我们还提供了一种基于 A * 算法的找到最优值上界的方法，适用于长时域问题。主要特点是定期揭示状态的新启发式方法，从而限制可达置信度的数量。我们的实验证明了该方法的有效性和可扩展性。

May, 2024

通过树分解在零和展开式博弈中实现团队相关均衡

本文针对协作游戏的均衡点发现问题，提出了一种基于树分解的全新算法。该算法不仅能实现多项实践和理论上的突破，而且思路新颖、高效，可以直接描述相关策略的多面体，因此可以免费获取在相关策略下的平衡点。实验结果证明其在标准游戏套件上的性能超越了现有所有竞争算法，唯一的例外是一类特定的基准游戏。

Sep, 2021

弱耦合的马尔科夫决策问题的灵活分解算法

本文提出了两种新的方法来分解和解决大型马尔可夫决策问题（MDPs），分别为部分解耦方法和完全解耦方法。这些方法可以用于发现最优策略或近似最优策略，并提供了一种有效的知识传递框架。

Jan, 2013

Dec-POMDP 中增量聚类和扩展以加速最优规划

文章介绍了分散式不完全可观察马尔可夫决策过程（Dec-POMDPs）的最优解决方法，其中引入了广义多智能体 A * 算法（GMAA*），合成了增量聚类与增量展开，并提出了新的混合启发式表示，能够优化解决大规模 Dec-POMDPs 的问题。

Feb, 2014

重新思考部分可观测多智体决策的形式模型

介绍了一种基于事实观测随机博弈（FOSG）建模的解决方案，该解决方案的优势在于可以轻松分解问题，且与博弈树等其他建模方式相关联，这为多智能体决策制定提供了启示。

Jun, 2019

多智能体规划中具有乐观影响的本地价值 --- 扩展版

本论文提出了一种影响 - 乐观上界策略，用于解决具有非因式价值函数的解离式部分可观察 MDP 的规模为数十甚至数百个代理的规划问题，并在数字上比较了不同的上界，并证明了启发式解法的优化保证，展示了该方法的多代理规划方面的潜在应用。

Feb, 2015