多机器人社交感知协作规划在行人环境中的多智能体强化学习
通过结合感知、规划和预测,本研究提出了一种基于深度强化学习的多智能体社会感知导航策略方法,使用基于图的实体交互表示,并利用图神经网络和注意机制进行建模。实验证明,该方法在多个异构人群的复杂环境中能比社交导航深度强化学习单智能体技术更快地学习,并实现了高效的多智能体隐式协调。
Jan, 2024
本文提出了一种使用多智能体强化学习框架 (MARL) 的安全保护平行体系结构来提高连接和自主车辆 (CAV) 系统在复杂驾驶情况下的安全性和效率,并使用 Graph Convolutional Network (GCN)-Transformer 作为空间 - 时间编码器,设立安全屏障并对 CAV 进行安全检查,实验结果显示该方法大大提高了系统安全性和效率。
Oct, 2022
本文提出了基于强化学习(RL)的方法来解决移动机器人在密闭空间中与行人互动的导航问题,探索了多个场景下训练准则的可复用性,并在两个真实环境的三维重建中表现出了良好的迁移能力。
Oct, 2020
本文提出了一种社交感知动态本地规划器的新框架,通过利用最近提出的轨迹排序最大熵深逆强化学习方法,从人类演示中学习奖励函数并显式地考虑社交互动因素和社交感知因素,同时提出使用机器人周围行人的突然速度变化来进行轨迹排名评分,从而解决人类演示中的次优问题。实验表明,该方法能够成功地使机器人在拥挤的社交环境中导航,并在成功率、导航时间和入侵率方面优于现有的社交导航方法。
Sep, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
本文提出了一种分布式多智能体强化学习算法,采用轨迹和意图预测,以应对自动驾驶汽车在密集交通情况下的安全和高效导航问题,并采用 iPLAN 方法进行意图感知规划,通过设计两种激励模块,促进从行为和长期的驾驶策略与当前交通情况的短期策略方面进行决策,仿真实验结果表明,与集中式 MARL 基线相比,本文提出的方法在混乱交通中的奖励、成功率和幸存时间上均有所提高。
Jun, 2023
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式 MarL 框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。
Dec, 2021