应用 MPC - 强化学习方法的无人机路径规划考虑避障

Feb, 2023

应用 MPC - 强化学习方法的无人机路径规划考虑避障

UAV Path Planning Employing MPC- Reinforcement Learning Method Considering Collision Avoidance

Mahya Ramezani, Hamed Habibi, Jose luis Sanchez Lopez, Holger Voos

TL;DR本文提出一种基于深度学习算法的无人机航迹规划方法，采用 LSTM-MPC 作为决策策略，并结合预测池来提高系统鲁棒性和效率，同时通过数值仿真实验验证了该方法的有效性。

Abstract

In this paper, we tackle the problem of Unmanned Aerial (UA V) path planning in complex and uncertain environments by designing a model predictive control (MPC), based on a →

unmanned aerial vehicles path planning model predictive control long-short-term memory deep deterministic policy gradient

发现论文，激发创造

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

使用强化学习设计蜂窝网络连接的无人机路径

本文研究了无人机的路径设计问题，提出了一种新的基于强化学习的算法，通过学习相应的 MDP 的状态 - 价值函数来求解，并使用瓦片编码对大状态空间进行处理。该算法使用原始测量或仿真生成的信号强度作为输入，可适用于在线和离线实现，并成功地避免了城市环境中蜂窝网络的覆盖漏洞。

May, 2019

基于深度强化学习的无人机无线数据采集路径规划

该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据，以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制，从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束，在各种场景参数下做出运动决策。

Jul, 2020

多智能体强化学习下的动态避障无人机路径规划

我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法，用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率，并通过模拟、室内和室外环境的实验结果验证了方法的有效性。

Oct, 2023

深度交互式动作预测与规划：通过动作预测模型进行游戏

本研究提出一种多智能体策略网络和博弈论模型预测控制器相结合的方案，将自动驾驶车辆的预测和规划层紧密耦合，能够有效生成交互行为。

Apr, 2022

自主飞行器基于深度强化学习的长期规划

本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Jul, 2020

多智能体深度强化学习在多无人机辅助移动边缘计算中的轨迹规划应用

提出一种无人机辅助的移动边缘计算框架，采用多智能体深度强化学习算法来优化无人机的轨迹，同时通过低复杂度方法优化用户设备的卸载决策。该解决方案相较于传统算法在服务用户设备公平性、无人机负载公平性和所有用户设备的能耗上性能表现较好。

Sep, 2020

深度强化学习中动态决策机构的运动规划

本文介绍了一种基于深度强化学习和 LSTM 的算法，可以在不使用特定行为规则的情况下，学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验，证明了该算法随着代理数量的增加能够更好地执行避碰，并且不需要使用 3D 激光雷达。

May, 2018

无人机安全多智能体运动规划中的不确定性下滤波强化学习

我们提出一种可行的、基于强化学习和约束控制轨迹规划的无人机多智能体安全运动规划器，可以处理不确定的、杂乱的工作空间，并确保安全性、避免碰撞。该方法能够实时实施，相对于仅基于学习的方法，训练过程更简单，数值模拟和实验证明了该方法的有效性。

Oct, 2023

多个无人机的鲁棒路径规划：基于深度强化学习

本研究旨在针对移动干扰器存在的情况下，寻找多个航空无人机与地面基站的连通性且避开碰撞的路径。我们提出了一种利用离线时间差异学习算法和在线信噪比映射解决该问题的方案。结果表明，在没有干扰器信息的情况下，我们提出的算法可以高效地避免碰撞并实现实时的多无人机导航任务。

Apr, 2021