合作多智能体任务中的奖励机器学习

Mar, 2023

合作多智能体任务中的奖励机器学习

Learning Reward Machines in Cooperative Multi-Agent Tasks

Leo Ardon, Daniel Furelos-Blanco, Alessandra Russo

TL;DR本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Abstract

This paper presents a novel approach to multi-agent reinforcement learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. T

multi-agent reinforcement learning cooperative task decomposition reward machines non-markovian rewards decentralized learning

发现论文，激发创造

多智能体强化学习与奖励机器的层次

本文研究利用奖励机器（RMs）来指定奖励函数，从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习（MARL）问题。我们提出了具有层次结构的高级事件的多智能体强化学习（MAHRM），能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况，通过分解任务为一系列更简单的子任务，并分配给少量智能体来减少整体计算复杂性。在三个合作 MARL 领域的实验结果表明，MAHRM 在使用相同的高级事件先前知识时优于其他 MARL 方法。

Mar, 2024

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及 MARL 在真实世界应用中的成功，并提供了可用于 MARL 研究的环境列表和可能的研究方向。

Aug, 2019

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。

Feb, 2023

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017