PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划

Sep, 2018

PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning

Guillaume Sartoretti, Justin Kerr, Yunfei Shi, Glenn Wagner, T. K. Satish Kumar...

TL;DR该研究提出了 PRIMAL，一种新的多智能体路径规划框架，结合了强化学习和模仿学习，用于训练全分散策略，在部分可观测的环境中在线反应式规划路径，具有隐式协调性。该框架通过引入专家规划器的演示，细心的奖励重新塑造和环境抽样，扩展了以前我们在协作策略的分布式学习方面的工作。最终，该研究还在模拟机器人实验中验证了所学策略的性能。

Abstract

multi-agent path finding (MAPF) is an essential component of many large-scale, real-world robot deployments, from aerial swarms to warehouse automation. However, despite the community's continued efforts, most state-of-the-art MAPF planners still rely on centralized planning and scale

multi-agent path finding primal decentralized policies reinforcement learning imitation learning

发现论文，激发创造

学习跟随：基于规划和学习的去中心化多智能体路径规划

在这项工作中，我们研究了分布式多智能体路径规划问题的设置，通过集成启发式搜索和强化学习方法，提出了一种解决复杂的问题的方法。我们的方法在广泛的设置中得到了验证，并且在吞吐量和泛化能力上表现优越，同时比现有的基于规则和基于搜索的解决方法快一个数量级。

Oct, 2023

HiMAP: 学习基于启发式的策略用于大规模多智能体路径规划

本文介绍了一种名为 HiMAP 的新型可扩展方法，应用了带启发式指导的模仿学习，并在分散化方式下进行训练，展示了在仅限于模仿学习的大规模多智能体路径规划领域能够取得竞争性的成功率和可扩展性结果，显示了模仿学习在路径规划领域的潜力。

Feb, 2024

学习以团队为基础的导航：多智能体路径规划的深度强化学习技术综述

介绍了多智能体路径规划 (MAPF) 领域中深度强化学习 (DRL) 方法的整合，并提供了统一的评估指标以解决现有挑战。

Aug, 2023

优化基于启发式搜索的学习局部 MAPF 策略

多智能体路径规划是解决一组智能体到达目标位置的无碰撞路径问题。先进的经典多智能体路径规划求解器通常采用启发式搜索方法以找到数百个智能体的解决方案，但通常是集中式的，而在短时间内可能难以扩展。机器学习方法学习每个智能体的策略非常吸引人，因为它们可以实现分散式系统，并在保持良好解决方案质量的同时具备良好的扩展性。我们的主要思想是，我们可以通过使用启发式搜索方法来改进机器学习的局部策略，以解决死锁和实现完全水平的规划。我们展示了几种无模型方法来使用带有学习策略的启发式搜索，这些方法显著提高了策略的成功率和可扩展性。据我们所知，我们首次证明了基于机器学习的多智能体路径规划方法在高拥塞场景（例如，20％智能体密度）中的可扩展性。

Mar, 2024

具有强化学习的加速课程的众包感知多智能体路径规划

采用强化学习和增强型课程化训练策略指导，引入 CRAMP（一种人群感知的去中心化方法），从而克服了多智能体路径规划在拥挤环境中的性能退化问题。在模拟环境中测试发现，CRAMP 在解决方案质量上比以往的去中心化方法提高了 58％，在成功率方面提高了 5％。

Sep, 2023

缩放终身多智能体路径规划到更现实的环境中：研究挑战与机遇

多智能体路径规划是将多个智能体从起点移动到目标点而无碰撞的问题，终身智能体路径规划通过不断为智能体分配新目标进一步扩展了多智能体路径规划。本文概述了三个主要的研究挑战，包括寻找在有限的规划时间内（例如，每步 1 秒）为大量智能体（例如，10,000 个）或极高智能体密度（例如，97.7%）搜索高质量的终身智能体路径规划（LMAPF）解决方案的挑战，缓解拥堵和短视行为在 LMAPF 算法中的影响的挑战，以及弥合文献中使用的 LMAPF 模型和实际应用之间的差距的挑战。

Apr, 2024

含延迟概率的多智能体路径规划

该研究提出了一个基于 Multi-Agent Path Finding (MAPF) 的两层搜索的 MAPF-DP 解决方案，包括规划具有不完美执行计划的有效 MAPF-DP 解决方案，提出了具有鲁棒性的计划执行策略以控制每个代理的行动，展示了能够生成有效 MAPF-DP 计划的两层 MAPF-DP 求解器（称为期望值最小化近似）。

Dec, 2016

多智能体路径规划在实际场景中的泛化

讨论多智能体路径规划在现实世界场景中通用的问题和四个解决方向，并强调解决这些问题的重要性，反对仅仅开发更快的标准 MAPF 问题求解方法。

Feb, 2017

基于图的多机器人路径规划

对现代算法的评估表明，针对多机器人系统的多智能体路径规划是解决自动仓库实现，火车调度和非完整机器人导航等多个应用领域重要方面的关键技术。

Jun, 2022

分布式蒙特卡洛树搜索用于部分可观察多智体路径规划

我们提出了一种基于分布式多智能体蒙特卡罗树搜索方法的多智能体路径规划算法，通过利用智能体的观察结果重新创建内在的马尔科夫决策过程，并结合针对多智能体任务的定制化神经蒙特卡罗树搜索算法进行路径规划，实验证明该方法优于现有的学习型多智能体路径规划器。

Dec, 2023