有限观测多智体强化学习与（准）效率：信息共享的福音

ICMLAug, 2023

有限观测多智体强化学习与（准）效率：信息共享的福音

Partially Observable Multi-agent RL with (Quasi-)Efficiency: The Blessing of Information Sharing

Xiangyu Liu, Kaiqing Zhang

TL;DR我们研究了部分可观察随机博弈的可证明多智能体强化学习 (MARL)。我们主张利用智能体之间的信息共享，在可观察性假设的情况下构建一个近似模型来规划近似均衡，并开发了一种具有统计和计算上拟效率的部分可观察 MARL 算法。

Abstract

We study provable multi-agent reinforcement learning (MARL) in the general framework of partially observable stochastic games (POSGs). To circumvent the known hardness results and the use of computationally intra

multi-agent reinforcement learning partially observable stochastic games information-sharing approximate model partially observable marl

发现论文，激发创造

部分可观马尔可夫博弈中高效学习的样本有效强化学习

本文研究了多智能体强化学习在部分可观察性下的挑战性任务，其中每个智能体只能看到自己的观察和动作。我们通过考虑广义模型的部分可观察马尔科夫博弈，证明了一个富裕的子类可以使用样本高效的学习方法，从而找到弱显式部分可观察马尔科夫博弈的近似纳什均衡、相关均衡以及粗略相关均衡，当代理数量很小时可在多项式样本复杂度内学得。

Jun, 2022

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

混合信息驱动多智能体强化学习

利用信息理论模型作为启发式算法来帮助大规模稀疏状态的代理系统寻找高级策略的混合信息驱动多代理强化学习（MARL）方法被提出和研究。通过初步实验结果表明，这一方法可以使代理系统在探索稀疏状态空间方面获得高达三个数量级的有效性提升。

Feb, 2021

重新思考部分可观测多智体决策的形式模型

介绍了一种基于事实观测随机博弈（FOSG）建模的解决方案，该解决方案的优势在于可以轻松分解问题，且与博弈树等其他建模方式相关联，这为多智能体决策制定提供了启示。

Jun, 2019

多智能体强化学习中的合作学习

本文研究了网络多智能体强化学习（MARL）问题，提出了一种分层分散式 MarL 框架：LToS，它使代理者能够动态地与邻居共享奖励，从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。

Dec, 2021

改进分散式多智能体强化学习的无模型算法

本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象，提出了一些去中心化的学习算法，并在几个关键的方面上做了优化，同时通过数值仿真验证我们理论的有效性。

Oct, 2021

通过函数逼近证明的高效去中心化多智能体强化学习

提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法，此算法总能输出马尔可夫序列最优解，并且实现了根据多样性相关均衡（CCE）找到Ɛ- 最优解的最优速率，同时，还提出了一种能够在多样性相关均衡（CCE）中找到策略类受限一致均衡的分布式算法。

Feb, 2023

具有通用效用的可扩展多智能体强化学习

我们研究了具有通用效用的可扩展多代理强化学习，通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法，该算法不需要全观察每个代理的情况，可以最大化团队的平均局部效用函数。

Feb, 2023

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022