学习跟随:基于规划和学习的去中心化多智能体路径规划
多智能体路径规划是将多个智能体从起点移动到目标点而无碰撞的问题,终身智能体路径规划通过不断为智能体分配新目标进一步扩展了多智能体路径规划。本文概述了三个主要的研究挑战,包括寻找在有限的规划时间内(例如,每步 1 秒)为大量智能体(例如,10,000 个)或极高智能体密度(例如,97.7%)搜索高质量的终身智能体路径规划(LMAPF)解决方案的挑战,缓解拥堵和短视行为在 LMAPF 算法中的影响的挑战,以及弥合文献中使用的 LMAPF 模型和实际应用之间的差距的挑战。
Apr, 2024
我们提出了一种基于分布式多智能体蒙特卡罗树搜索方法的多智能体路径规划算法,通过利用智能体的观察结果重新创建内在的马尔科夫决策过程,并结合针对多智能体任务的定制化神经蒙特卡罗树搜索算法进行路径规划,实验证明该方法优于现有的学习型多智能体路径规划器。
Dec, 2023
多智能体路径规划是解决一组智能体到达目标位置的无碰撞路径问题。先进的经典多智能体路径规划求解器通常采用启发式搜索方法以找到数百个智能体的解决方案,但通常是集中式的,而在短时间内可能难以扩展。机器学习方法学习每个智能体的策略非常吸引人,因为它们可以实现分散式系统,并在保持良好解决方案质量的同时具备良好的扩展性。我们的主要思想是,我们可以通过使用启发式搜索方法来改进机器学习的局部策略,以解决死锁和实现完全水平的规划。我们展示了几种无模型方法来使用带有学习策略的启发式搜索,这些方法显著提高了策略的成功率和可扩展性。据我们所知,我们首次证明了基于机器学习的多智能体路径规划方法在高拥塞场景(例如,20%智能体密度)中的可扩展性。
Mar, 2024
多智能体路径规划(Multi-Agent Path Finding)是机器人领域的一个基本问题,该研究提出了一种新方法来解决这个问题,该方法通过引导智能体按照避免拥堵的路径前往目的地,有效提高了解决方案质量,并在整体通量方面取得了显著改进。
Aug, 2023
该研究提出了 PRIMAL,一种新的多智能体路径规划框架,结合了强化学习和模仿学习,用于训练全分散策略,在部分可观测的环境中在线反应式规划路径,具有隐式协调性。该框架通过引入专家规划器的演示,细心的奖励重新塑造和环境抽样,扩展了以前我们在协作策略的分布式学习方面的工作。最终,该研究还在模拟机器人实验中验证了所学策略的性能。
Sep, 2018
本文介绍了一种名为 HiMAP 的新型可扩展方法,应用了带启发式指导的模仿学习,并在分散化方式下进行训练,展示了在仅限于模仿学习的大规模多智能体路径规划领域能够取得竞争性的成功率和可扩展性结果,显示了模仿学习在路径规划领域的潜力。
Feb, 2024
该研究提出了一个基于 Multi-Agent Path Finding (MAPF) 的两层搜索的 MAPF-DP 解决方案,包括规划具有不完美执行计划的有效 MAPF-DP 解决方案,提出了具有鲁棒性的计划执行策略以控制每个代理的行动,展示了能够生成有效 MAPF-DP 计划的两层 MAPF-DP 求解器(称为期望值最小化近似)。
Dec, 2016
介绍了多智能体路径规划 (MAPF) 领域中深度强化学习 (DRL) 方法的整合,并提供了统一的评估指标以解决现有挑战。
Aug, 2023
本文主要研究如何在 lifelong MAPF 中使用 highway 方法解决地图规模增大、密度增大等问题,以减少 deadlocks 现象并优化 throughput,实验证明 runtime 得到改进。
Apr, 2023
本文研究了在大型自动化仓库等场景下,智能体不断需要寻找新的目标点的长期多智能体路径规划问题。我们提出了一种新的解决方案,Rolling-Horizon Collision Resolution 框架,通过将问题分解成一系列窗口 MAPF 实例来解决,其中窗口 MAPF 解决器仅在有限时间范围内解决智能体路径的冲突,并忽略其外的冲突。我们通过模拟仓库实例,经验性地评估了 RHCR,并与各种 MAPF 解算器进行了比较,在多达 1000 个智能体的情况下(= 地图上 38.9%的空单元格),RHCR 可以产生高质量的解决方案,显着优于现有工作。
May, 2020