基于层次一致性的多智能体强化学习在多机器人协作任务中的应用

Jul, 2024

基于层次一致性的多智能体强化学习在多机器人协作任务中的应用

Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks

Pu Feng, Junkang Liang, Size Wang, Xin Yu, Rongye Shi...

TL;DR多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架，采用对比学习来促进智能体之间的全局一致性，从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性，并在执行期间将其作为额外信息来指导协同行动，通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响，优化即时反应和战略规划之间的平衡，以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用，展示了我们框架相对于基准的卓越性能，取得了显著的进展。

Abstract

In multi-agent reinforcement learning (MARL), the centralized training with decentralized execution (CTDE) framework is pivotal but struggles due to a gap: global state guidance in training versus reliance on loc

发现论文，激发创造

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及MARL在真实世界应用中的成功，并提供了可用于MARL研究的环境列表和可能的研究方向。

Aug, 2019

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域——网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

利用中央化训练的近期多智能体强化学习算法调查

为了实现人类般的协作，大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里，我们讨论了集中式训练的变化，并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在执行合作任务的多智能体系统中产生不同的团体协调行为。

Jul, 2021

同质化马尔可夫博弈的高效通信演员-评论方法

该论文研究了协作多智能体强化学习中的集中式训练和策略共享，提出了一种基于一致性的去中心化演员-评论家方法，以减少通信成本并保证收敛，从而有效地降低了训练时的通信成本。

Feb, 2022

基于图诱导的局部价值函数的分布式多智能体强化学习

本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题，这种方法使用图的结构描述不同类型的多智能体之间的关系，并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法，能够在保证有效性的前提下，大幅减少采样复杂性。

Feb, 2022

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

多智能体强化学习系统中基于信任的共识

该论文探讨了在多智能体强化学习中存在不可靠智能体的问题以及如何实现让智能体在存在不可靠智能体的情况下达成共识，通过提出基于强化学习的可信共识机制，使智能体能够根据与它们之间的交互经验自主决定与何人通信，并取得了更高的共识成功率。

May, 2022

合作多智体强化学习的共识学习

本研究提出了一种协作多智能体强化学习的共识学习方法，通过基于本地观察的共识学习，在分散式执行期间将推断出来的共识明确地作为智能体网络的输入，从而发展他们的合作精神，并在若干完全合作任务上获得了令人信服的结果。

Jun, 2022

基于宏动作的部分可观测性多智能体/机器人深度强化学习

本文提出了一种基于宏操作（macro-actions）的多智能体强化学习方法，该方法支持异步学习和决策制定，在多智能体/机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。

Sep, 2022

多智能体强化学习与奖励机器的层次

本文研究利用奖励机器（RMs）来指定奖励函数，从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习（MARL）问题。我们提出了具有层次结构的高级事件的多智能体强化学习（MAHRM），能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况，通过分解任务为一系列更简单的子任务，并分配给少量智能体来减少整体计算复杂性。在三个合作MARL领域的实验结果表明，MAHRM在使用相同的高级事件先前知识时优于其他MARL方法。

Mar, 2024