利用强化学习进行神经运动规划

Jun, 2019

Harnessing Reinforcement Learning for Neural Motion Planning

Tom Jurgenson, Aviv Tamar

TL;DR本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Abstract

motion planning is an essential component in most of today's robotic applications. In this work, we consider the learning setting, where a set of solved motion planning problems is used to improve the efficiency

motion planning learning algorithms neural networks reinforcement learning robotics

发现论文，激发创造

自主车辆运动规划深度强化学习调查

本文研究了在自动驾驶车辆领域中，传感器技术、通信、安全、人工智能、机器学习、路线规划等多方面的应用，重点阐述了一种基于深度强化学习的层次运动规划方法，并以车跟、车道保持、轨迹跟踪、融合和交通压力等不同场景的自动驾驶为例，总结了现有解决方案的优缺点并提出未来研究方向和挑战。

Jan, 2020

基于强化学习的行为规划与采样运动规划的自动驾驶集成

本文提出一种利用深度强化学习的自主驾驶行为规划模型，通过预测未来交通情况，将高层行为规划接口化，并通过循环规划策略进行实验验证。

Apr, 2023

基于深度强化学习的密集与动态环境中的多智能体运动规划

本文介绍深度强化学习算法和基于力的运动规划算法的混合算法，在稠密和动态环境下解决分布式运动规划问题，并且能够更好地解决时间最优性和冲撞问题。

Jan, 2020

基于运动基元的（再）规划策略

本文介绍了一种名为 MP3 的深度强化学习方法，它通过将运动原语（MPs）整合到深度 RL 框架中，实现了在整个学习过程中生成平滑轨迹的能力，同时有效地从稀疏且非马尔可夫奖励中学习，还具有在执行过程中适应环境变化的能力，该方法相较于现有的深度 RL 和 RL 结合 MPs 等方法，在复杂、稀疏奖励环境和需要重规划的领域中表现出更好的性能。

Jun, 2023

采用强化学习的路径生成与细化运动控制的机器人导航

本文提出了一种基于强化学习的路径生成（RL-PG）方法，以用于移动机器人导航，无需事先探索未知环境。该方法采用深度马尔可夫模型优化的 RL 算法生成多个预测路径点，通过运动微调模块 fine-tuning 机器人的运动以确保跟踪预测点时的安全。通过在模拟和物理平台上的部署，证明本文提出的方法有效并且其成功率更高于 DWA-RL 和传统的 APF 导航方法。

Oct, 2022

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

基于经验规划与自我模仿学习的机器人运动规划的强化学习

本文提出了一种称为 SILP + 算法的自我模仿学习方法，将基于经验的规划有效地嵌入到学习架构中，从而缓解了机器人运动规划任务中的数据采集问题，并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。

Jun, 2023

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

基于深度强化学习的预测性机动规划（PMP-DRL）用于舒适和安全的自动驾驶

本文提出了一种使用深度强化学习进行的预测机动规划模型，该模型结合了预测模型和 RL 代理以实现舒适和安全的机动规划，通过使用历史驾驶数据训练预测模型，将周围车辆的过去和预测的未来位置嵌入到上下文感知的网格地图中进行学习，同时，RL 代理学习基于时空上下文信息进行机动规划，该模型在公开可用的 NGSIM US101 和 I80 数据集中进行了性能评估。

Jun, 2023

基于深度强化学习的工业机器人路径规划，使用距离传感器作为观测

本文提出了一种基于深度强化学习的机器人操作器运动规划器，用于解决工业机器人在未知环境下的路径规划问题，实验结果证明其在路径长度和执行时间方面的优越性。

Jan, 2023