结合启发式和多智体强化学习的多机器人路径规划

Jun, 2023

结合启发式和多智体强化学习的多机器人路径规划

Multi-Robot Path Planning Combining Heuristics and Multi-Agent Reinforcement Learning

Shaoming Peng

TL;DR提出了一种结合启发式搜索、经验法则和多智能体强化学习的路径规划方法 MAPPOHR，将启发式搜索用于生成全局路径，用经验法则和奖励函数激励实时规划器，用多智能体强化学习算法实现实时规划，实验证明该方法比传统学习和启发式方法的规划性能更好且学习效率更高。

Abstract

multi-robot path finding in dynamic environments is a highly challenging classic problem. In the movement process, robots need to avoid collisions with other moving robots while minimizing their travel distance.

multi-robot path finding dynamic environments reinforcement learning heuristic search collision avoidance

发现论文，激发创造

HiMAP: 学习基于启发式的策略用于大规模多智能体路径规划

本文介绍了一种名为 HiMAP 的新型可扩展方法，应用了带启发式指导的模仿学习，并在分散化方式下进行训练，展示了在仅限于模仿学习的大规模多智能体路径规划领域能够取得竞争性的成功率和可扩展性结果，显示了模仿学习在路径规划领域的潜力。

Feb, 2024

学习跟随：基于规划和学习的去中心化多智能体路径规划

在这项工作中，我们研究了分布式多智能体路径规划问题的设置，通过集成启发式搜索和强化学习方法，提出了一种解决复杂的问题的方法。我们的方法在广泛的设置中得到了验证，并且在吞吐量和泛化能力上表现优越，同时比现有的基于规则和基于搜索的解决方法快一个数量级。

Oct, 2023

优化基于启发式搜索的学习局部 MAPF 策略

多智能体路径规划是解决一组智能体到达目标位置的无碰撞路径问题。先进的经典多智能体路径规划求解器通常采用启发式搜索方法以找到数百个智能体的解决方案，但通常是集中式的，而在短时间内可能难以扩展。机器学习方法学习每个智能体的策略非常吸引人，因为它们可以实现分散式系统，并在保持良好解决方案质量的同时具备良好的扩展性。我们的主要思想是，我们可以通过使用启发式搜索方法来改进机器学习的局部策略，以解决死锁和实现完全水平的规划。我们展示了几种无模型方法来使用带有学习策略的启发式搜索，这些方法显著提高了策略的成功率和可扩展性。据我们所知，我们首次证明了基于机器学习的多智能体路径规划方法在高拥塞场景（例如，20％智能体密度）中的可扩展性。

Mar, 2024

通过利用在线生成的经验，加速多机器人操作的搜索规划

通过利用冲突基础搜索算法的重复和增量特性，加速搜索算法的方法使其适用于多臂协调和复杂环境中的机器人操作，从而达到完整和有界的次优性保证。

Mar, 2024

基于图的多机器人路径规划

对现代算法的评估表明，针对多机器人系统的多智能体路径规划是解决自动仓库实现，火车调度和非完整机器人导航等多个应用领域重要方面的关键技术。

Jun, 2022

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Nov, 2023

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Mar, 2024

基于多启发式搜索的自动停车运动规划

采用多启发式搜索方法，在相比常规算法更复杂的搜索空间中获得更高效和更高质量的实时路径规划。

Jul, 2023

PRIMAL: 通过强化学习和模仿多智能体学习进行路径规划

该研究提出了 PRIMAL，一种新的多智能体路径规划框架，结合了强化学习和模仿学习，用于训练全分散策略，在部分可观测的环境中在线反应式规划路径，具有隐式协调性。该框架通过引入专家规划器的演示，细心的奖励重新塑造和环境抽样，扩展了以前我们在协作策略的分布式学习方面的工作。最终，该研究还在模拟机器人实验中验证了所学策略的性能。

Sep, 2018

基于深度强化学习的密集与动态环境中的多智能体运动规划

本文介绍深度强化学习算法和基于力的运动规划算法的混合算法，在稠密和动态环境下解决分布式运动规划问题，并且能够更好地解决时间最优性和冲撞问题。

Jan, 2020