有效多智能体 Q-Learning 的图探索

Apr, 2023

Graph Exploration for Effective Multi-agent Q-Learning

Ainur Zhaikhan, Ali H. Sayed

TL;DR本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Abstract

This paper proposes an exploration technique for multi-agent reinforcement learning (MARL) with graph-based communication among agents. We assume the individual rewards received by the agents are independent of t

multi-agent reinforcement learning graph-based communication exploration technique collaboration decentralized communication

发现论文，激发创造

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

带有定向协调图的分布式合作多智能体强化学习

本文提出了一种分布式强化学习算法，该算法使用直接协调图和局部值函数，通过零阶优化方法进行条件估计，没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比，我们的算法保证了高可扩展性。

Jan, 2022

结构化状态抽象协作多智能体导航学习

本研究提出了一个神经网络架构，旨在共同学习多个代理参与导航任务中的自适应状态空间抽象和通信协议，从而有效减少探索的状态空间的大小，并达到更好的政策性能。

Jun, 2023

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

基于合作图的多智能体稀疏奖励强化学习方法

本文提出了一种基于 Cooperation Graph 结构的 Multiagent Reinforcement Learning（CG-MARL）算法，通过设计一个网络结构来有效处理多智能体领域中的稀疏奖励问题，并在实验中展示出全面领先的性能表现。

Aug, 2022

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

在有向无环图约束下学习多个协同代理

本文提出了一种新的多智能体强化学习方法，旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构，有效提高学习性能，并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上，我们提出了一种实用的训练算法，利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上，我们利用了四个 DAG 环境，包括英特尔高容量封装和测试工厂的真实排程，对我们的方法进行基准测试，证明其优于其他非 DAG 方法。

Jul, 2023

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019