自主飞行器基于深度强化学习的长期规划

AAAIJul, 2020

自主飞行器基于深度强化学习的长期规划

Long-Term Planning with Deep Reinforcement Learning on Autonomous Drones

Ugurkan Ates

TL;DR本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Abstract

In this paper, we study a long-term planning scenario that is based on drone racing competitions held in real life. We conducted this experiment on a framework created for "Game of Drones: drone racing Competitio

drone racing reinforcement learning ppo algorithm gps information long-term planning

发现论文，激发创造

一种用于无人机自主降落平台的深度强化学习策略

本文阐述了如何将深度强化学习算法应用于机器人领域，主要关注于以物理模拟平台为基础的无人机飞行任务控制，使用基于 Gazebo 的强化学习框架进行训练，最终成功实现了无人机自主降落的任务

Sep, 2022

无人机的短期与长期协调：分布式优化与深度强化学习的结合

智能无人机群体结合充电技术可以在智能城市中提供完整的感知能力，如交通监控和灾害响应。通过分布式优化和深度强化学习（DRL）等现有方法，旨在协调无人机以实现成本效益高、质量高的导航、感知和充电。然而，它们存在明显挑战：短期优化难以提供持续效益，而长期 DRL 缺乏可扩展性、韧性和灵活性。为弥合这一差距，本文介绍了一种新的渐进式方法，包括基于分布式优化的规划和选择，以及基于 DRL 的飞行方向调度。通过对从真实城市流动性生成的数据集进行的广泛实验，与三种基准方法相比，所提出的解决方案在交通监控方面表现出色。

Nov, 2023

基于深度强化学习的无人机无线数据采集路径规划

该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据，以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制，从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束，在各种场景参数下做出运动决策。

Jul, 2020

基于视觉的自主无人机赛车的深度感觉运动策略学习

通过学习深度的感知动作策略，使用对比学习从输入图像中提取固定特征表示，通过两阶段的作弊式学习框架训练神经网络策略，将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断，无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性，而且可以实现与状态法相同的赛车性能，为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。

Oct, 2022

基于深层模型的强化学习学习飞行

通过学习无人机动力学的概率模型，我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器，完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。

Mar, 2020

基于 PPO 的 DRL 自校准非线性 PID 无人机控制器实现鲁棒自主飞行

该研究旨在通过应用非线性深度强化学习（DRL）代理作为传统线性比例积分微分（PID）控制器的替代品，从而彻底改革无人机飞行控制。主要目标是实现无人机在手动和自主模式之间的无缝过渡，提高其响应性和稳定性。利用 Gazebo 模拟器中的 Proximal Policy Optimization（PPO）强化学习策略训练 DRL 代理，并通过添加价格为 20000 美元的室内 Vicon 跟踪系统实现 < 1mm 的定位精度，从而大大提高了自主飞行的精确性。为了在最短的无碰撞轨迹下引导无人机导航，我们还构建了一个三维 A * 路径规划器，并成功将其应用到实际飞行中。

Mar, 2024

深度无人机赛车：学习在动态环境中敏捷飞行

利用卷积神经网络直接映射原始图像到航点和所需速度的强鲁棒性生成，使用路径规划和控制系统生成短的、最小时间轨迹段，测试表明该方法能够在动态环境中准确和稳健地实现无人机的自主飞行，不需要昂贵的硬件和昂贵的图像处理，且比专业的人类驾驶员更加高效。

Jun, 2018

深度无人机比赛：从模拟到现实中的域随机化

我们将最先进的规划和控制系统与卷积神经网络相结合，实现了自主机器人在动态环境中的高速飞行和对感知目标的实时认识，无需进行任何调整，同时通过领域随机化生成大量的模拟数据，使我们的系统对光照和目标出现变化具有鲁棒性，实现了在敏捷无人机飞行任务中的零次模拟到实际的成功展示。

May, 2019

用无人机进行时关紧急野外搜救的深度强化学习

该论文探讨在野外环境中为无人机创建高效的搜索任务的深度强化学习方法，通过利用先验数据和概率分布图，学习最优的飞行路径以快速找到失踪者，实验结果表明，与传统覆盖规划和搜索规划算法相比，深度强化学习方法在搜索时间上取得了显著改进。

May, 2024

AlphaPilot：自主无人机竞速

本文提出了一个新颖的自主、基于视觉的无人机竞速系统，结合学习的数据抽象、非线性滤波和最优时间轨迹规划，该系统已成功在 2019 年 AlphaPilot 挑战赛中部署。与传统的无人机竞赛系统不同，该方法利用任何可见的门并利用多个同时检测到的门来补偿状态估计中的漂移和构建门的全局地图。全局的地图和补偿漂移的状态估计使得无人机在比赛中可以在门不直接可见时导航，并且可以基于近似的无人机动力学实时规划近似最佳路径通过比赛赛道。所提出的系统已经成功地指导无人机穿越狭窄的比赛赛道，达到了每秒 8 米的速度，并在 2019 年 AlphaPilot 挑战赛中排名第二。

May, 2020