HOPE: 基于强化学习的混合策略路径规划方法用于多样化停车场景

May, 2024

HOPE: 基于强化学习的混合策略路径规划方法用于多样化停车场景

HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

Mingyang Jiang, Yueyuan Li, Songan Zhang, Chunxiang Wang, Ming Yang

TL;DR本文介绍了一种新颖的解决方案，Hybrid POlicy Path plannEr (HOPE)，它将基于强化学习的智能体与 Reeds-Shepp 曲线集成在一起，在不同的场景中实现有效的路径规划。通过采用变压器作为网络结构来融合环境信息和生成规划路径，并引入了动作掩码机制以提高强化学习训练的效率和效果。实验结果表明，该方法在规定的停车场景中胜过了传统的基于规则和强化学习方法，具有更高的规划成功率和推广性。

Abstract

path planning plays a pivotal role in automated parking, yet current methods struggle to efficiently handle the intricate and diverse parking scenarios. One potential solution is the reinforcement learning-based

path planning reinforcement learning hybrid policy path planner reeds-shepp curves transformer network

发现论文，激发创造

基于强化学习的 MCTS 路径规划在自动停车中的加速

通过将强化学习与蒙特卡洛树搜索相结合，我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识，状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制，我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本，我们能够建模给定状态的值估计器和策略生成器。通过这样的方式，我们建立了一种探索与利用之间的平衡机制，加速了路径规划过程，并在不使用人工专家驾驶员数据的情况下保持其质量。

Mar, 2024

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023

强化学习应用于多智能体汽车停车

本文介绍了应用强化学习解决多智能体汽车停车问题的方法和结果，通过使用独立学习和多智能体通信的马尔可夫决策过程设计实现了灵活的停车环境，结果证明了这种方法的高效性和优越性，并发现了一种合作方式和合作中的漏洞，在自动驾驶和车队管理等领域具有潜在应用。

Jun, 2022

结合启发式和多智体强化学习的多机器人路径规划

提出了一种结合启发式搜索、经验法则和多智能体强化学习的路径规划方法 MAPPOHR，将启发式搜索用于生成全局路径，用经验法则和奖励函数激励实时规划器，用多智能体强化学习算法实现实时规划，实验证明该方法比传统学习和启发式方法的规划性能更好且学习效率更高。

Jun, 2023

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

基于强化学习的清洁机器人路径规划

采用强化学习和迁移学习优化的有效路径规划方法，可在不同环境下使用以增加清洁机器人的训练性能和收敛速度，显著提高其清洁效率和性能。

Aug, 2022

混合深度强化学习与规划的安全舒适自动驾驶

提出了一种名为 HyLEAR 的新型混合学习方法，用于在 POMDP 中解决自动驾驶汽车的无碰撞导航问题。HyLEAR 利用中介学习将混合规划器的知识嵌入到深度强化学习器中，以更快速地确定安全舒适的驾驶策略。实验结果表明，HyLEAR 在关键交通情景下的安全性和舒适性方面显著优于其他基准算法。

Dec, 2022

在线规划下的离线策略学习

研究了半参数 H 步先知政策在深度强化学习中的应用，提出了 Learning Off-Policy with Online Planning (LOOP) 方法，该方法使用学习模型和终端价值函数，并通过 Actor Regularized Control (ARC) 解决了政策发散的问题。LOOP 不仅提高了离线和在线 RL 的性能，还可灵活应用于安全约束的实现，是一个适用于机器人应用的强大的 RL 框架。

Aug, 2020

对抗多智能体游戏中的扩散 - 强化学习层次化运动规划

基于强化学习的运动规划在自主导航到机器人操控等方面已显示出超越传统方法的潜力。本文针对部分可观察多智能体对抗潜逃游戏（PEG）中规划机动任务展开研究。我们提出了一种分层架构，将高层扩散模型与低层强化学习算法结合，分别用于全局路径规划和回避行为推理。该方法通过利用扩散模型引导强化学习算法进行更高效的探索，并提高了可解释性和预测能力，相较于基准模型的表现提高了 51.2%。

Mar, 2024