MACCA: 离线多智能体强化学习与因果信用分配

Dec, 2023

MACCA: 离线多智能体强化学习与因果信用分配

MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit Assignment

Ziyan Wang, Yali Du, Yudi Zhang, Meng Fang, Biwei Huang

TL;DR在离线多智能体强化学习中，通过将生成过程建模为动态贝叶斯网络，我们的方法 MACCA 可以准确、可解释地分配每个个体的贡献，并且在离线数据集的设置下，已证明了其建模的正确性。实验证明，MACCA 在离散和连续动作环境中优于最先进方法并提高了其性能。

Abstract

Offline multi-agent reinforcement learning (MARL) is valuable in scenarios where online interaction is impractical or risky. While independent learning in MARL offers flexibility and scalability, accurately assigning credit to individual agents in →

multi-agent reinforcement learning offline settings credit assignment dynamic bayesian network macca

发现论文，激发创造

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架，包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

高效多智能体强化学习中的因果检测

通过引入时间因果关系的惩罚机制，多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上，在团队表现和个体能力方面得到改善。

Mar, 2023

离线多智能体强化学习协调问题的基于模型的解决方案

该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究，并提出了一种基于模型的离线多智能体近端策略优化算法（MOMA-PPO），利用合成的交互数据帮助智能体在策略调整中更好地协调，成功解决了现有算法在多智能体任务中出现的协作问题。

May, 2023

多智能体环境中高效协作的因果关系发现

本研究探讨了因果关系在多智能体强化学习中的应用，证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体，从而提高了团队的整体表现和个体能力。

Jun, 2023

在多智能体环境中独立地从因果关系中学习

通过从因果关系的角度研究，本文探讨了多智能体强化学习中的懒惰代理问题，并将其与因果关系领域建立联系，通过实验证明个体观察与团队奖励之间存在因果关系，进一步提高多智能体强化学习中独立代理的性能和智能行为。

Nov, 2023

具有网络代理的完全分散的多代理强化学习

本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题，这两个算法均为完全去中心化的 Actor-Critic 算法，能够应用于大规模多智能体学习问题中，并在模拟实验中验证了算法的有效性和可收敛性。

Feb, 2018

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

基于逐步任务情境化的多智能体持续协调

本文提出了一种名为 MACPro 的方法，通过采用分解的策略来实现多智能体不断协调的能力，支持多类任务进行更好地管理和学习，并且在多项多智能体基准测试中表现出近乎最优的性能。

May, 2023