多智能体路径规划的集成优先混合策略

Mar, 2024

多智能体路径规划的集成优先混合策略

Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding

Huijie Tang, Federico Berto, Jinkyoo Park

TL;DR基于多智能体强化学习 (MARL) 的多智能体路径规划 (MAPF) 近来备受关注，我们提出了一种名为 Ensembling Prioritized Hybrid Policies (EPH) 的方法，该方法通过选择性通信模块、基于 Q 学习的算法以及高级推理策略来提高通信方式下 MARL-MAPF 求解器的性能，针对复杂多智能体环境进行了实证评估，并展现了与 MAPF 领域最先进的神经网络方法相竞争的性能。

Abstract

multi-agent reinforcement learning (MARL) based multi-agent path finding (MAPF) has recently gained attention due to its efficiency and scalability. Several MARL-MAPF methods choose to use →

multi-agent reinforcement learning multi-agent path finding communication eph ensemble method

发现论文，激发创造

通过智能通信渠道协调多个代理商之间的政策

本文提出了一种新的多智能体强化学习通信方式，通过智能协调员筛选和解释所有代理提供的信号来提高个体的集体表现，该架构优于现有基线方法在多个合作环境中的表现。

May, 2022

HiMAP: 学习基于启发式的策略用于大规模多智能体路径规划

本文介绍了一种名为 HiMAP 的新型可扩展方法，应用了带启发式指导的模仿学习，并在分散化方式下进行训练，展示了在仅限于模仿学习的大规模多智能体路径规划领域能够取得竞争性的成功率和可扩展性结果，显示了模仿学习在路径规划领域的潜力。

Feb, 2024

E-MAPP: 高效的并行程序指导多智能体强化学习

通过使用并行程序指导多个智能体高效完成需要规划 10 个以上阶段的任务，本文提出了一种名为 E-MAPP 的增强型多智能体强化学习框架，该框架整合了程序的结构信息，促进了基于程序语义的协作行为，并通过任务分配器提高了时间效率，在 Overcooked 环境中完成的一系列复杂的长期合作任务的实验结果表明， E-MAPP 在完成率、时间效率和零 - shot 泛化能力方面优于强基线方法。

Dec, 2022

优化基于启发式搜索的学习局部 MAPF 策略

多智能体路径规划是解决一组智能体到达目标位置的无碰撞路径问题。先进的经典多智能体路径规划求解器通常采用启发式搜索方法以找到数百个智能体的解决方案，但通常是集中式的，而在短时间内可能难以扩展。机器学习方法学习每个智能体的策略非常吸引人，因为它们可以实现分散式系统，并在保持良好解决方案质量的同时具备良好的扩展性。我们的主要思想是，我们可以通过使用启发式搜索方法来改进机器学习的局部策略，以解决死锁和实现完全水平的规划。我们展示了几种无模型方法来使用带有学习策略的启发式搜索，这些方法显著提高了策略的成功率和可扩展性。据我们所知，我们首次证明了基于机器学习的多智能体路径规划方法在高拥塞场景（例如，20％智能体密度）中的可扩展性。

Mar, 2024

PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划

该研究提出了 PRIMAL，一种新的多智能体路径规划框架，结合了强化学习和模仿学习，用于训练全分散策略，在部分可观测的环境中在线反应式规划路径，具有隐式协调性。该框架通过引入专家规划器的演示，细心的奖励重新塑造和环境抽样，扩展了以前我们在协作策略的分布式学习方面的工作。最终，该研究还在模拟机器人实验中验证了所学策略的性能。

Sep, 2018

学习跟随：基于规划和学习的去中心化多智能体路径规划

在这项工作中，我们研究了分布式多智能体路径规划问题的设置，通过集成启发式搜索和强化学习方法，提出了一种解决复杂的问题的方法。我们的方法在广泛的设置中得到了验证，并且在吞吐量和泛化能力上表现优越，同时比现有的基于规则和基于搜索的解决方法快一个数量级。

Oct, 2023

一致优先级搜索多智能体路径规划

该研究探讨优先规划在多智能体路径规划中的应用，提出了基于冲突驱动的组合搜索框架，在实验中展示了其解决方案的先进性和成功率，并首次探讨了优先规划的完整性和最优性的局限性。

Dec, 2018

基于图形的多智能体强化学习的协同信息传播学习

利用多智能体强化学习的分散式 POMDP 方法，通过图卷积强化学习和动态注意力技术实现信息传播，提供了可靠的协作信息传播解决方案。

Aug, 2023

利用经验的终身多智能体路径规划

本文介绍了一种多机器人路径规划算法的新方法 exRHCR，该算法利用先前任务的解决方案来加速新的任务的解决，实验表明，exRHCR 相对于 RHCR 的解决速度提高了 39％，可以在给定时间预算内处理更多的机器人，从而提高了系统的吞吐量。

Feb, 2022

大规模异构多智能体系统的优先级强化学习

提出了一种名为 PHLRL（Prioritized Heterogeneous League Reinforcement Learning）的方法，用于解决大规模异构合作问题，并使用 LSMO（Large-Scale Multiagent Operation）基准测试显示 PHLRL 优于 QTRAN 和 QPLEX 等现有方法。

Mar, 2024