应用 MPC - 强化学习方法的无人机路径规划考虑避障
模型预测控制与强化学习相结合并在引导策略搜索框架下应用,通过使用机载传感器数据在训练时间内训练神经网络策略,该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。
Sep, 2015
本文研究了无人机的路径设计问题,提出了一种新的基于强化学习的算法,通过学习相应的 MDP 的状态 - 价值函数来求解,并使用瓦片编码对大状态空间进行处理。该算法使用原始测量或仿真生成的信号强度作为输入,可适用于在线和离线实现,并成功地避免了城市环境中蜂窝网络的覆盖漏洞。
May, 2019
该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据,以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制,从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束,在各种场景参数下做出运动决策。
Jul, 2020
我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法,用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率,并通过模拟、室内和室外环境的实验结果验证了方法的有效性。
Oct, 2023
本文研究了基于现实生活中无人机赛事的长期规划场景,对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验,使用对手无人机的 GPS 信息作为专家指导进行训练,成功解决了复杂状态空间问题,其代码可以在我们的 GitHub 存储库中找到。
Jul, 2020
提出一种无人机辅助的移动边缘计算框架,采用多智能体深度强化学习算法来优化无人机的轨迹,同时通过低复杂度方法优化用户设备的卸载决策。该解决方案相较于传统算法在服务用户设备公平性、无人机负载公平性和所有用户设备的能耗上性能表现较好。
Sep, 2020
本文介绍了一种基于深度强化学习和 LSTM 的算法,可以在不使用特定行为规则的情况下,学习各种类型的动态代理之间的避碰。通过仿真和在全自主机器人车辆上的实验,证明了该算法随着代理数量的增加能够更好地执行避碰,并且不需要使用 3D 激光雷达。
May, 2018
我们提出一种可行的、基于强化学习和约束控制轨迹规划的无人机多智能体安全运动规划器,可以处理不确定的、杂乱的工作空间,并确保安全性、避免碰撞。该方法能够实时实施,相对于仅基于学习的方法,训练过程更简单,数值模拟和实验证明了该方法的有效性。
Oct, 2023
本研究旨在针对移动干扰器存在的情况下,寻找多个航空无人机与地面基站的连通性且避开碰撞的路径。我们提出了一种利用离线时间差异学习算法和在线信噪比映射解决该问题的方案。结果表明,在没有干扰器信息的情况下,我们提出的算法可以高效地避免碰撞并实现实时的多无人机导航任务。
Apr, 2021