异质智能体强化学习

Apr, 2023

Heterogeneous-Agent Reinforcement Learning

Yifan Zhong, Jakub Grudzien Kuba, Siyi Hu, Jiaming Ji, Yaodong Yang

TL;DR本文提出了基于 HARL 算法的新框架 HAML，将多智能体强化学习的合作扩展到异构智能体模式，并对该框架下的多种算法进行了验证和比较。测试表明，HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。

Abstract

The necessity for cooperation among intelligent machines has popularised cooperative multi-agent reinforcement learning (MARL) in AI research. However, many research endeavours heavily rely on parameter sharing a

multi-agent reinforcement learning parameter sharing heterogeneous agents heterogeneous-agent reinforcement learning cooperative marl

发现论文，激发创造

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的 MARL 算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。

Aug, 2022

多智能体强化学习中的信任区域策略优化

本文介绍了针对到多智能体强化学习 (MARL) 的信任区域方法，并展示了 Heterogeneous-Agent Trust Region Policy Optimisation 和 Heterogeneous-Agent Proximal Policy Optimisation 算法的成功应用。

Sep, 2021

最大熵异质代理镜像学习

本文提出了一种新的理论框架 MEHAML，利用最大熵原理设计最大熵 MARL Actor-Critic 算法，证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡（QRE）的所需属性，实验结果表明，在三个基准测试中，HASAC（软 Actor-Critic）的性能超越了 HATD3、HAPPO、QMIX 和 MAPPO 等强基线方法，成为了新的最优方法。

Jun, 2023

异构多机器人强化学习

研究介绍了一种名为 HetGPPO 的新型多智能体强化学习模型，利用图神经网络促进智能体间的通信来优化中介异质性策略，实现了在部分可观测环境下的完全去中心化训练，从而在真实世界中取得了比均质模型更好的鲁棒性。

Jan, 2023

异构多智能体强化学习：镜像下降策略优化

该论文介绍了一种扩展的 Mirror Descent 方法，用于克服合作多智能体强化学习设置中的挑战，其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新，同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略，HAMDPO 保证了稳定性并提高了性能。此外，HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO，证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明，HAMDPO 是解决合作 MARL 问题的一种有希望的方法，可能还可以扩展到解决 MARL 领域中的其他挑战性问题。

Aug, 2023

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。

Feb, 2023

通过多智能体联赛训练学习异质智能体协作

本研究提出了一种名为 Heterogeneous League Training (HLT) 的通用强化学习算法，用于解决异构多智能体问题，试验结果表明 HLT 可以提高异构团队在合作任务中的成功率，是解决策略版本迭代问题的有效途径，提供了评估异构团队中每个角色难度的实际方法。

Nov, 2022

促进协作多智能体强化学习的层次任务网络规划

本篇论文提出了 SOMARL 框架，利用符号知识嵌入 HTN 和元控制器中的 MARL 环境中，针对 FindTreasure 和 MoveBox 两种基准实验表现出比现有技术和基于子目标的基线更好的绩效。

Jun, 2023

多智能体强化学习与奖励机器的层次

本文研究利用奖励机器（RMs）来指定奖励函数，从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习（MARL）问题。我们提出了具有层次结构的高级事件的多智能体强化学习（MAHRM），能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况，通过分解任务为一系列更简单的子任务，并分配给少量智能体来减少整体计算复杂性。在三个合作 MARL 领域的实验结果表明，MAHRM 在使用相同的高级事件先前知识时优于其他 MARL 方法。

Mar, 2024

具有层次信息结构的去中心化协作强化学习

本文提出了一种简单有效的分层信息结构用于多智能体强化学习中的多臂赌博机和马尔可夫决策过程问题，以求克服智能体间的信息不对称带来的挑战，并给出了相应的近似最优的遗憾界。

Nov, 2021