MACCA: 离线多智能体强化学习与因果信用分配
该研究为填补离线多智能体强化学习(MARL)领域中缺乏标准基准和评估方法的空白,提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架,包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的,具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。
Feb, 2023
通过引入时间因果关系的惩罚机制,多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上,在团队表现和个体能力方面得到改善。
Mar, 2023
该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究,并提出了一种基于模型的离线多智能体近端策略优化算法(MOMA-PPO),利用合成的交互数据帮助智能体在策略调整中更好地协调,成功解决了现有算法在多智能体任务中出现的协作问题。
May, 2023
本研究探讨了因果关系在多智能体强化学习中的应用,证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体,从而提高了团队的整体表现和个体能力。
Jun, 2023
通过从因果关系的角度研究,本文探讨了多智能体强化学习中的懒惰代理问题,并将其与因果关系领域建立联系,通过实验证明个体观察与团队奖励之间存在因果关系,进一步提高多智能体强化学习中独立代理的性能和智能行为。
Nov, 2023
本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题,这两个算法均为完全去中心化的 Actor-Critic 算法,能够应用于大规模多智能体学习问题中,并在模拟实验中验证了算法的有效性和可收敛性。
Feb, 2018
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。
Jun, 2020
提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本文提出了一种名为 MACPro 的方法,通过采用分解的策略来实现多智能体不断协调的能力,支持多类任务进行更好地管理和学习,并且在多项多智能体基准测试中表现出近乎最优的性能。
May, 2023