Mar, 2024

基于强化学习的 MCTS 路径规划在自动停车中的加速

TL;DR通过将强化学习与蒙特卡洛树搜索相结合,我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识,状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制,我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本,我们能够建模给定状态的值估计器和策略生成器。通过这样的方式,我们建立了一种探索与利用之间的平衡机制,加速了路径规划过程,并在不使用人工专家驾驶员数据的情况下保持其质量。