多机器人社交感知协作规划在行人环境中的多智能体强化学习

Nov, 2022

多机器人社交感知协作规划在行人环境中的多智能体强化学习

Multi-robot Social-aware Cooperative Planning in Pedestrian Environments Using Multi-agent Reinforcement Learning

Zichen He, Chunwei Song, Lu Dong

TL;DR本文提出了一种基于离线多智能体强化学习（MARL）的多机器人社交感知和高效协同规划方法，使用时间 - 空间图（TSG）进行社交编码，引入 K 步先见奖励设置，并改进了传统的集中式批判者网络，从而在多群组实验中验证了该方法的有效性。

Abstract

Safe and efficient co-planning of multiple robots in pedestrian participation environments is promising for applications. In this work, a novel multi-robot social-aware efficient cooperative planner that on the basis of off-policy multi-agent →

multi-robot planning social-awareness reinforcement learning pedestrian participation cooperative motion planning

发现论文，激发创造

用深度强化学习实现多机器人社交导航的注意力图

通过结合感知、规划和预测，本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法，使用基于图的实体交互表示，并利用图神经网络和注意机制进行建模。实验证明，该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习，并实现了高效的多智能体隐式协调。

Jan, 2024

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

具有空间 - 时间感知能力的安全多智能体强化学习：应对复杂场景下的联网自动驾驶车辆

本文提出了一种使用多智能体强化学习框架 (MARL) 的安全保护平行体系结构来提高连接和自主车辆 (CAV) 系统在复杂驾驶情况下的安全性和效率，并使用 Graph Convolutional Network (GCN)-Transformer 作为空间 - 时间编码器，设立安全屏障并对 CAV 进行安全检查，实验结果显示该方法大大提高了系统安全性和效率。

Oct, 2022

具有深度强化学习的社会感知运动规划

使用深度强化学习，本文研发了一种尊重人们常见社交规范的导航策略，可以使机器人车辆在行人密集的环境中以人类步速进行完全自主导航。

Mar, 2017

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

使用强化学习在限制的行人环境下实现机器人导航

本文提出了基于强化学习（RL）的方法来解决移动机器人在密闭空间中与行人互动的导航问题，探索了多个场景下训练准则的可复用性，并在两个真实环境的三维重建中表现出了良好的迁移能力。

Oct, 2020

SoLo T-DIRL: 基于轨迹排序深反馈强化学习的社会感知动态局部路径规划器

本文提出了一种社交感知动态本地规划器的新框架，通过利用最近提出的轨迹排序最大熵深逆强化学习方法，从人类演示中学习奖励函数并显式地考虑社交互动因素和社交感知因素，同时提出使用机器人周围行人的突然速度变化来进行轨迹排名评分，从而解决人类演示中的次优问题。实验表明，该方法能够成功地使机器人在拥挤的社交环境中导航，并在成功率、导航时间和入侵率方面优于现有的社交导航方法。

Sep, 2022

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

iPLAN: 分布式多智能体强化学习在异质交通中的意图感知规划

本文提出了一种分布式多智能体强化学习算法，采用轨迹和意图预测，以应对自动驾驶汽车在密集交通情况下的安全和高效导航问题，并采用 iPLAN 方法进行意图感知规划，通过设计两种激励模块，促进从行为和长期的驾驶策略与当前交通情况的短期策略方面进行决策，仿真实验结果表明，与集中式 MARL 基线相比，本文提出的方法在混乱交通中的奖励、成功率和幸存时间上均有所提高。

Jun, 2023

多智能体强化学习中的合作学习

本文研究了网络多智能体强化学习（MARL）问题，提出了一种分层分散式 MarL 框架：LToS，它使代理者能够动态地与邻居共享奖励，从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。

Dec, 2021