异步多智能体强化学习用于高效实时多机器人协同探索

Jan, 2023

异步多智能体强化学习用于高效实时多机器人协同探索

Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration

Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li...

TL;DR我们提出了一种异步的多智能体强化学习算法，Asynchronous Coordination Explorer (ACE)，可以在处理机器人探索问题时减少实际探索时间，并通过使用基于CNN的策略将遗失的机器人维护在一个团队中。

Abstract

We consider the problem of cooperative exploration where multiple robots need to cooperatively explore an unknown region as fast as possible. multi-agent reinforcement learning (MARL) has recently become a trending paradigm for solving this challenge. However, existing MARL-based metho

发现论文，激发创造

集体机器人分布式异步引导策略搜索强化学习

本文探讨了分布式异步策略学习作为实现机器人具备普适性和提高复杂任务训练效率的手段。实验证明，使用这种方法可以提高机器人对任务的泛化、利用和训练时间效率，从而在视觉门开启任务中取得更好的效果。

Oct, 2016

高效多智能体合作视觉探索学习

本研究提出了一种基于强化学习的算法，引入了新颖的多智能体规划模块 MSP 和空间平移变换器 Spatial-TeamFormer，实现了多智能体协作视觉探测，经过政策蒸馏提取的元策略大大提高了最终策略的泛化能力，并在一个真实的 3D 模拟器 Habitat 中表现出比经典规划方法更好的性能。

Oct, 2021

物理机器人实时控制的异步强化学习

本文论述了异步学习和顺序学习的比较，并在真实环境下使用机器人手臂和视觉任务进行了实验。研究结果表明，当学习更新的时间成本增加时，顺序学习的性能会显著下降，而异步学习会明显胜过顺序学习。

Mar, 2022

异步、基于选项的多智能体策略梯度：一种条件推理方法

本文提出了一种条件推理方法，以解决多智能体协作任务中的高级行为空间集中控制和梯度获取问题，并在代表性的基于选项的多智能体协作任务上验证了其有效性。

Mar, 2022

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

基于宏动作的部分可观测性多智能体/机器人深度强化学习

本文提出了一种基于宏操作（macro-actions）的多智能体强化学习方法，该方法支持异步学习和决策制定，在多智能体/机器人领域具有广泛应用价值。本文的算法在多个领域的仿真实验和现实机器人实验中验证了其有效性和高质量解决方案的能力。

Sep, 2022

多智能体强化学习的异步演员-评论家算法

该论文提出一种多代理演员-评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

多智能体导航中学习图增强的指挥者-执行者模型

本文介绍了一种基于图神经网络的多智能体导航任务的目标条件层次方法，名为MAGE-X，该方法由高级目标指挥官和低级行动执行器组成，并通过使用关键合作者构建子图来提高合作。结果显示，MAGE-X在多智能体颗粒环境（MPE）和更复杂的四旋翼3D导航任务中均优于最先进的MARL基线。

Feb, 2023

MAexp：基于强化学习的多智能体探索通用平台

我们提出了一个通用的多Agent探索平台MAexp，该平台整合了各种最先进的MARL算法和代表性场景，通过使用点云来表示探索场景，实现了高保真度的环境映射和大约比现有平台快40倍的采样速度。此外，MAexp还配备了基于注意力的多Agent目标生成器和单Agent运动规划器，可以适应任意数量的Agent和各种类型的机器人。我们进行了大量实验，建立了一个旨在为具有连续动作的机器人在典型场景下展示几种高性能MARL算法的第一个基准。

Apr, 2024

基于层次一致性的多智能体强化学习在多机器人协作任务中的应用

多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架，采用对比学习来促进智能体之间的全局一致性，从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性，并在执行期间将其作为额外信息来指导协同行动，通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响，优化即时反应和战略规划之间的平衡，以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用，展示了我们框架相对于基准的卓越性能，取得了显著的进展。

Jul, 2024