基于强化学习的 MCTS 路径规划在自动停车中的加速

Mar, 2024

基于强化学习的 MCTS 路径规划在自动停车中的加速

Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking

Xinlong Zheng, Xiaozhou Zhang, Donghao Xu

TL;DR通过将强化学习与蒙特卡洛树搜索相结合，我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识，状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制，我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本，我们能够建模给定状态的值估计器和策略生成器。通过这样的方式，我们建立了一种探索与利用之间的平衡机制，加速了路径规划过程，并在不使用人工专家驾驶员数据的情况下保持其质量。

Abstract

In this paper, we address a method that integrates reinforcement learning into the monte carlo tree search to boost online path planning u

reinforcement learning monte carlo tree search online path planning automated parking tasks state evaluation

发现论文，激发创造

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

强化学习应用于多智能体汽车停车

本文介绍了应用强化学习解决多智能体汽车停车问题的方法和结果，通过使用独立学习和多智能体通信的马尔可夫决策过程设计实现了灵活的停车环境，结果证明了这种方法的高效性和优越性，并发现了一种合作方式和合作中的漏洞，在自动驾驶和车队管理等领域具有潜在应用。

Jun, 2022

基于改进的 A * 算法的自动停车规划控制方法

本文提出了基于 A * 算法的改进自动停车规划算法，并使用模型预测控制 (MPC) 作为自动停车的控制模块，通过优化启发函数、二叉堆优化和双向搜索来增强规划的实时性，通过动态加载障碍物和引入车辆自身体积来计算狭窄区域的通行能力，在满足停车任务的高轨迹质量要求方面，使用邻域扩展和贝塞尔曲线优化方法改善轨迹质量。在获得规划算法的输出结果后，根据本地地图下自动停车任务的特点设计损失函数，并使用 MPC 算法输出控制指令以沿着规划的轨迹行驶。实验结果表明，本文提出的改进算法能够有效满足本地地图下自动停车的特殊要求，并完成自动停车的规划和控制任务。

May, 2024

学习即规划：通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

高速公路图在强化学习中的加速

为了提高 RL 算法的训练效率，本研究基于高速公路图的观察，提出了一种新颖的图结构，用于模拟状态转换，将 RL 训练在早期阶段显著加速，并在性能上优于其他无模型和带模型的 RL 算法。同时，基于高速公路图训练的深度神经网络代理具有更好的泛化性能和更低的存储成本。

May, 2024

分层蒙特卡洛树搜索的自动驾驶车辆分散协作规划

这篇论文介绍了一种基于蒙特卡洛树搜索的去中心化合作规划方法，通过使用宏操作来描述自动驾驶车辆在不同的环境中的合作规划，实现不同交通参与者之间的协调和显式建模。

Jul, 2018

未知环境下在线覆盖路径规划的端到端强化学习

该研究提出了基于强化学习的、连续状态和动作空间下的在线覆盖路径规划方法，用于处理未知环境的大型区域，并且结合了全局地图和局部感知输入，以及多尺度地图输入表示的观测空间构建，通过提出的全变差奖励，实现了学习路径上无漏洞被覆盖的目标。

Jun, 2023

使用强化学习调节自主车辆的路径跟踪控制器

本文提出了一种基于强化学习的适应性路径跟踪控制系统，可用于自动驾驶汽车，并使用 Q-Learning 算法进行较小横向和转向轨迹误差的校准。该系统还基于 ROS 桥连接了 CARLA 模拟环境和跟踪器结果。模拟结果表明，本系统能够安全地适应不同类型的参考轨迹，并具有低误差追踪能力。

Jan, 2023