对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

Mar, 2024

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games

Zixuan Wu, Sean Ye, Manisha Natarajan, Matthew C. Gombolay

TL;DR基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Abstract

reinforcement learning- (RL-)based motion planning has recently shown the potential to outperform traditional approaches from autonomous navigation to robot manipulation. In this work, we focus on a →

reinforcement learning motion planning multi-agent adversarial pursuit-evasion games hierarchical architecture diffusion model

发现论文，激发创造

深度强化学习中动态决策机构的运动规划

本文介绍了一种基于深度强化学习和 LSTM 的算法，可以在不使用特定行为规则的情况下，学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验，证明了该算法随着代理数量的增加能够更好地执行避碰，并且不需要使用 3D 激光雷达。

May, 2018

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019

基于深度强化学习的密集与动态环境中的多智能体运动规划

本文介绍深度强化学习算法和基于力的运动规划算法的混合算法，在稠密和动态环境下解决分布式运动规划问题，并且能够更好地解决时间最优性和冲撞问题。

Jan, 2020

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

自主车辆运动规划深度强化学习调查

本文研究了在自动驾驶车辆领域中，传感器技术、通信、安全、人工智能、机器学习、路线规划等多方面的应用，重点阐述了一种基于深度强化学习的层次运动规划方法，并以车跟、车道保持、轨迹跟踪、融合和交通压力等不同场景的自动驾驶为例，总结了现有解决方案的优缺点并提出未来研究方向和挑战。

Jan, 2020

多智能体强化学习下的动态避障无人机路径规划

我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法，用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率，并通过模拟、室内和室外环境的实验结果验证了方法的有效性。

Oct, 2023

城市自主驾驶的动作和轨迹规划：层次强化学习

本论文提出了一种基于分层强化学习方法的行动和轨迹规划器，有效地解决了城市自动驾驶场景下的多任务多车辆决策问题，并通过在 CARLA 模拟器中进行广泛实验证明了其显著的性能提升。

Jun, 2023

采用强化学习的路径生成与细化运动控制的机器人导航

本文提出了一种基于强化学习的路径生成（RL-PG）方法，以用于移动机器人导航，无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点，通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署，证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。

Oct, 2022

简单层次规划与扩散

鉴于传统的扩散生成方法在建模离线数据集中的轨迹方面已经证明有效，然而，由于计算挑战和泛化能力的问题，特别是捕捉长期任务的时间抽象方面，我们介绍了一种名为 “层次性扩散器” 的简单、快速且出人意料地有效的规划方法，它结合了层次化和基于扩散的规划的优点。我们的模型在更高的层次上采用 “跳跃” 规划策略，允许其拥有更大的感受域，但计算成本较低，这对于基于扩散的规划方法来说是一个关键因素，我们已经通过实验证实了这一点。此外，这些 “跳跃” 的子目标指导了我们的低层规划器，促进了微调阶段并进一步提高了我们方法的有效性。我们对标准离线强化学习基准进行了实证评估，在培训和规划速度方面，与非层次性扩散器以及其他分层规划方法相比，我们的方法表现出卓越的性能和效率。此外，我们还探讨了我们模型的泛化能力，特别是我们的方法在复合性的分布任务中如何提高泛化能力。

Jan, 2024

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023