PRM-RL: 结合强化学习与采样规划的长程机器人导航任务

Oct, 2017

PRM-RL: 结合强化学习与采样规划的长程机器人导航任务

PRM-RL: Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

Aleksandra Faust, Oscar Ramirez, Marek Fiser, Kenneth Oslund, Anthony Francis...

TL;DRPRM-RL 是一种利用采样路径规划结合强化学习实现远程导航的分层方法，其中 RL 代理通过学习短距离点到点导航策略，采用面向特征和深度神经网络及 PRMs 进行构建，并通过采样计划器提供的规划路径实现机器人的控制。PRM-RL 的应用结果表明，在室内和城市环境下，比起单独使用 RL 代理或传统的采样路径规划方法，PRM-RL 实现了任务完成度的显著提升，在噪声传感器条件下成功完成长达 215 米的轨迹，且实现了对 1,000 米长的空中货运的无违约任务达成。

Abstract

We present PRM-RL, a hierarchical method for long-range navigation task completion that combines sampling based path planning with reinforcement learning (RL). The RL agents learn short-range, point-to-point navigation policies that capture robot dynamics and task constraints without k

sampling-based planning reinforcement learning navigation tasks probabilistic roadmaps robot dynamics

发现论文，激发创造

基于 PRM-RL 的室内远程导航

PRM-RL 是一种层次机器人导航方法，其中用强化学习智能体学习解决短程避障任务，随后基于 PRM 建立可靠的仿真环境，最后在实际机器人上通过自动学习技术进行长距离室内导航，并且实验结果表明 PRM-RL 比其他基线算法更为成功并且具有鲁棒性。

Feb, 2019

控制变压器：基于 PRM 引导的返回条件序列建模的机器人在未知环境中导航

本文提出控制变压器 (Control Transformer) 结合基于采样的概率路图规划器 (Probabilistic Roadmap Planner) 的低层策略，应用于机器人领域的长周期任务，结果表明我们的框架可以仅利用局部信息解决长周期导航任务，实现了零 - shot 的模拟现实转移 (transfer)，并在 Ant、Point、Humanoid 和 Turtlebot3 机器人上验证了该方法。

Nov, 2022

采用强化学习的路径生成与细化运动控制的机器人导航

本文提出了一种基于强化学习的路径生成（RL-PG）方法，以用于移动机器人导航，无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点，通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署，证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。

Oct, 2022

基于模型预测强化学习的内河水道安全感知自主路径规划

最近，由于将汽车和卡车远离城市中心的趋势，对城市水路自主航运的兴趣显著增加。本文提出了一种基于强化学习的新型路径规划方法，称为模型预测强化学习（MPRL）。MPRL 通过计算一系列船只需遵循的航点来规划路径，将环境表示为占用栅格地图，可以处理任何形状的水道和任意数量和形状的障碍物。我们在两个场景上验证了我们的方法，并将其与基于 Frenet 框架的路径规划和基于邻近策略优化（PPO）代理的路径规划进行了比较。我们的结果表明，在两个测试场景中，MPRL 的性能优于两个基准方法。基于 PPO 的方法在任一场景中均未能达到目标，而基于 Frenet 框架的方法在带有障碍物角落的场景中失败。MPRL 能够在两个测试场景中安全地（无碰撞地）导航到目标。

Nov, 2023

基于深度强化学习的工业机器人路径规划，使用距离传感器作为观测

本文提出了一种基于深度强化学习的机器人操作器运动规划器，用于解决工业机器人在未知环境下的路径规划问题，实验结果证明其在路径长度和执行时间方面的优越性。

Jan, 2023

确定性采样式运动规划：最优性，复杂度，和性能

该研究论文探究了将确定性的低离散度采样序列应用于机器人运动规划中的概率采样算法，并证明了其渐近最优性，并通过数值实验验证了其在路径成本和成功率方面表现出更高的性能。

Apr, 2015

ReProHRL: 多目标导航中的层级代理在真实环境中的应用

我们提出了一种名为 Ready for Production Hierarchical RL（ReProHRL）的方法，它通过强化学习来划分具有层次结构的多目标导航任务，并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中，实证结果表明，所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。

Aug, 2023

基于采样的最优路径规划算法

本文介绍了一种新的算法 PRM * 和 RRT*，证明了它们是渐近最优的，并且在样本数增加的情况下，它们的解决方案成本几乎肯定收敛于最优值。这些算法的计算复杂度与传统的，但不是渐近最优的算法相当。

May, 2011

PALMER：感知 - 动作循环，带有长视距规划记忆

为了实现先验未知的真实世界场景下的自治，我们介绍了一种称为 PALMER 的通用规划算法，将经典基于采样的规划算法与基于学习的感知表示相结合，从而获得更健壮、更高效的长视距规划。

Dec, 2022

基于深度强化学习的预测性机动规划（PMP-DRL）用于舒适和安全的自动驾驶

本文提出了一种使用深度强化学习进行的预测机动规划模型，该模型结合了预测模型和 RL 代理以实现舒适和安全的机动规划，通过使用历史驾驶数据训练预测模型，将周围车辆的过去和预测的未来位置嵌入到上下文感知的网格地图中进行学习，同时，RL 代理学习基于时空上下文信息进行机动规划，该模型在公开可用的 NGSIM US101 和 I80 数据集中进行了性能评估。

Jun, 2023