优化基于启发式搜索的学习局部 MAPF 策略

Mar, 2024

优化基于启发式搜索的学习局部 MAPF 策略

Improving Learnt Local MAPF Policies with Heuristic Search

Rishi Veerapaneni, Qian Wang, Kevin Ren, Arthur Jakobsson, Jiaoyang Li...

TL;DR多智能体路径规划是解决一组智能体到达目标位置的无碰撞路径问题。先进的经典多智能体路径规划求解器通常采用启发式搜索方法以找到数百个智能体的解决方案，但通常是集中式的，而在短时间内可能难以扩展。机器学习方法学习每个智能体的策略非常吸引人，因为它们可以实现分散式系统，并在保持良好解决方案质量的同时具备良好的扩展性。我们的主要思想是，我们可以通过使用启发式搜索方法来改进机器学习的局部策略，以解决死锁和实现完全水平的规划。我们展示了几种无模型方法来使用带有学习策略的启发式搜索，这些方法显著提高了策略的成功率和可扩展性。据我们所知，我们首次证明了基于机器学习的多智能体路径规划方法在高拥塞场景（例如，20％智能体密度）中的可扩展性。

Abstract

multi-agent path finding (MAPF) is the problem of finding collision-free paths for a team of agents to reach their goal locations. State-of-the-art classical MAPF solvers typically employ heuristic search to find

multi-agent path finding heuristic search machine learning local policy success rates

发现论文，激发创造

学习跟随：基于规划和学习的去中心化多智能体路径规划

在这项工作中，我们研究了分布式多智能体路径规划问题的设置，通过集成启发式搜索和强化学习方法，提出了一种解决复杂的问题的方法。我们的方法在广泛的设置中得到了验证，并且在吞吐量和泛化能力上表现优越，同时比现有的基于规则和基于搜索的解决方法快一个数量级。

Oct, 2023

HiMAP: 学习基于启发式的策略用于大规模多智能体路径规划

本文介绍了一种名为 HiMAP 的新型可扩展方法，应用了带启发式指导的模仿学习，并在分散化方式下进行训练，展示了在仅限于模仿学习的大规模多智能体路径规划领域能够取得竞争性的成功率和可扩展性结果，显示了模仿学习在路径规划领域的潜力。

Feb, 2024

含延迟概率的多智能体路径规划

该研究提出了一个基于 Multi-Agent Path Finding (MAPF) 的两层搜索的 MAPF-DP 解决方案，包括规划具有不完美执行计划的有效 MAPF-DP 解决方案，提出了具有鲁棒性的计划执行策略以控制每个代理的行动，展示了能够生成有效 MAPF-DP 计划的两层 MAPF-DP 求解器（称为期望值最小化近似）。

Dec, 2016

缩放终身多智能体路径规划到更现实的环境中：研究挑战与机遇

多智能体路径规划是将多个智能体从起点移动到目标点而无碰撞的问题，终身智能体路径规划通过不断为智能体分配新目标进一步扩展了多智能体路径规划。本文概述了三个主要的研究挑战，包括寻找在有限的规划时间内（例如，每步 1 秒）为大量智能体（例如，10,000 个）或极高智能体密度（例如，97.7%）搜索高质量的终身智能体路径规划（LMAPF）解决方案的挑战，缓解拥堵和短视行为在 LMAPF 算法中的影响的挑战，以及弥合文献中使用的 LMAPF 模型和实际应用之间的差距的挑战。

Apr, 2024

多智能体路径规划的启发式编译

本文介绍了如何在 SAT 求解器中构建带有领域特定启发式信息的 MAPF 编码，并选择每个 agent 的备选路径来构建编码，实验结果表明这种启发式的 MAPF 求解器优于普通的 SAT 求解器。

Dec, 2022

分布式蒙特卡洛树搜索用于部分可观察多智体路径规划

我们提出了一种基于分布式多智能体蒙特卡罗树搜索方法的多智能体路径规划算法，通过利用智能体的观察结果重新创建内在的马尔科夫决策过程，并结合针对多智能体任务的定制化神经蒙特卡罗树搜索算法进行路径规划，实验证明该方法优于现有的学习型多智能体路径规划器。

Dec, 2023

交通流优化对于终生多智能体路径规划

多智能体路径规划（Multi-Agent Path Finding）是机器人领域的一个基本问题，该研究提出了一种新方法来解决这个问题，该方法通过引导智能体按照避免拥堵的路径前往目的地，有效提高了解决方案质量，并在整体通量方面取得了显著改进。

Aug, 2023

多智能体路径规划的可扩展机制设计

我们介绍了可扩展的多智能体路径规划的机制设计问题，并提出了三种不可否认策略的机制，其中两种甚至使用了近似的多智能体路径规划算法。我们在实际应用中测试了这些机制，问题规模从几十到数百个智能体。研究结果表明，与简单基准相比，它们可以提高整体效益。

Jan, 2024

大规模仓库中的终身多智能体路径规划

本文研究了在大型自动化仓库等场景下，智能体不断需要寻找新的目标点的长期多智能体路径规划问题。我们提出了一种新的解决方案，Rolling-Horizon Collision Resolution 框架，通过将问题分解成一系列窗口 MAPF 实例来解决，其中窗口 MAPF 解决器仅在有限时间范围内解决智能体路径的冲突，并忽略其外的冲突。我们通过模拟仓库实例，经验性地评估了 RHCR，并与各种 MAPF 解算器进行了比较，在多达 1000 个智能体的情况下（= 地图上 38.9％的空单元格），RHCR 可以产生高质量的解决方案，显着优于现有工作。

May, 2020

PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划

该研究提出了 PRIMAL，一种新的多智能体路径规划框架，结合了强化学习和模仿学习，用于训练全分散策略，在部分可观测的环境中在线反应式规划路径，具有隐式协调性。该框架通过引入专家规划器的演示，细心的奖励重新塑造和环境抽样，扩展了以前我们在协作策略的分布式学习方面的工作。最终，该研究还在模拟机器人实验中验证了所学策略的性能。

Sep, 2018