基于深度强化学习的多智能体通信与协作决策研究

May, 2023

基于深度强化学习的多智能体通信与协作决策研究

Research on Multi-Agent Communication and Collaborative Decision-Making Based on Deep Reinforcement Learning

Zeng Da

TL;DR本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

Abstract

In a multi-agent environment, In order to overcome and alleviate the non-stationarity of the multi-agent environment, the mainstream metho

multi-agent cooperative decision-making proximal policy optimization non-stationarity communication mechanism

发现论文，激发创造

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Nov, 2023

通过基于记忆的通信提高小规模多智体深度强化学习中的协调

本文提出了一个基于深度确定性策略梯度的多智能体训练框架，利用存储设备并发端到端学习明确的通信协议，来提高小规模系统中智能体的协作和性能，同时研究了不同通信模式对性能的影响。

Jan, 2019

具有图卷积通信的反事实多智体强化学习

该研究提出了一种基于图卷积和多因素策略梯度的架构，用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题，并在一系列任务中取得了优异表现。

Apr, 2020

基于集中训练和分散执行的多智能体深度强化学习在交通基础设施管理中的应用

我们提出了一个多智能体深度强化学习框架，用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程，解决了在存在不确定性、风险考量和有限资源的情况下，对交通基础设施进行优化管理的问题。通过开发一种名为 DDMAC-CTDE 的 Deep Decentralized Multi-agent Actor-Critic 方法，该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比，该方法在真实约束和复杂性下提供了近乎最优的解决方案。

Jan, 2024

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

基于推理的确定性多智能体通信消息传递

本文研究了智能代理在协调、学习中的作用，提出了一种基于信息传递的优化方法，通过实验表明该方法可以增强现有的分散式训练方法，具有推广应用的潜力。

Mar, 2021

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

多智能体强化学习：实用沟通和控制

这篇论文提出了一种名为 “Cyber-Physical POMDP” 的模型，将目标导向通信和网络控制相结合，以实现分散的移动机器人的协调，通过联合训练可以显着提高总体性能并可导致通信行动的隐式协调。

Feb, 2023

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

我们开发了一种多智能体强化学习算法，通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策，以最小化多个多基站多小区网络的总能耗，同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP)，以实现个别基站之间的协作，以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性，进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明，训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言，与自动休眠模式 1 (符号级睡眠) 算法相比，MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗，在高流量小时内提高了约 19% 的能源效率。

Feb, 2024