M$^3$RL: 意识感知的多智能体管理强化学习

ICLRSep, 2018

M$^3$RL: 意识感知的多智能体管理强化学习

M$^3$RL: Mind-aware Multi-agent Management Reinforcement Learning

Tianmin Shu, Yuandong Tian

TL;DR本文提出 Mind-aware Multi-agent Management Reinforcement Learning (M^3RL) 算法，通过对多个自我意识且不可控制的机器人进行建模，实现超级机器人的管理和操纵，以实现最优的多机器人协同任务分配和奖励系统。

Abstract

Most of the prior work on multi-agent reinforcement learning (MARL) achieves optimal collaboration by directly controlling the agents to maximize a common reward. In this paper, we aim to address this from a different angle. In particular, we consider scenarios where there are

multi-agent reinforcement learning self-interested agents super agent ad-hoc teaming worker agents

发现论文，激发创造

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019

MalmÖ 中的多智能体强化学习（MARLÖ）竞赛

该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛，它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念，并建议作为人工智能通用智能方向的一个里程碑挑战。

Jan, 2019

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。

Feb, 2023

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习 (Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

用于基于意图的蜂窝网络服务保障的多智能体强化学习

该论文介绍了一种基于多智能体强化学习技术的意图管理方法，通过优化重要 KPI 并协调各个闭环实现多个意图同时满足，实验结果表明该方法在实现意图和优化 KPI 方面表现良好。

Aug, 2022