自主飞行器基于深度强化学习的长期规划
本文阐述了如何将深度强化学习算法应用于机器人领域,主要关注于以物理模拟平台为基础的无人机飞行任务控制,使用基于 Gazebo 的强化学习框架进行训练,最终成功实现了无人机自主降落的任务
Sep, 2022
智能无人机群体结合充电技术可以在智能城市中提供完整的感知能力,如交通监控和灾害响应。通过分布式优化和深度强化学习(DRL)等现有方法,旨在协调无人机以实现成本效益高、质量高的导航、感知和充电。然而,它们存在明显挑战:短期优化难以提供持续效益,而长期 DRL 缺乏可扩展性、韧性和灵活性。为弥合这一差距,本文介绍了一种新的渐进式方法,包括基于分布式优化的规划和选择,以及基于 DRL 的飞行方向调度。通过对从真实城市流动性生成的数据集进行的广泛实验,与三种基准方法相比,所提出的解决方案在交通监控方面表现出色。
Nov, 2023
该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据,以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制,从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束,在各种场景参数下做出运动决策。
Jul, 2020
通过学习深度的感知动作策略,使用对比学习从输入图像中提取固定特征表示,通过两阶段的作弊式学习框架训练神经网络策略,将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断,无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性,而且可以实现与状态法相同的赛车性能,为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。
Oct, 2022
通过学习无人机动力学的概率模型,我们使用基于模型的强化学习学习了四旋翼的推进姿态控制器,完全使用生成潜在轨迹通过传播随机解析梯度来优化控制器和价值函数。
Mar, 2020
该研究旨在通过应用非线性深度强化学习(DRL)代理作为传统线性比例积分微分(PID)控制器的替代品,从而彻底改革无人机飞行控制。主要目标是实现无人机在手动和自主模式之间的无缝过渡,提高其响应性和稳定性。利用 Gazebo 模拟器中的 Proximal Policy Optimization(PPO)强化学习策略训练 DRL 代理,并通过添加价格为 20000 美元的室内 Vicon 跟踪系统实现 < 1mm 的定位精度,从而大大提高了自主飞行的精确性。为了在最短的无碰撞轨迹下引导无人机导航,我们还构建了一个三维 A * 路径规划器,并成功将其应用到实际飞行中。
Mar, 2024
利用卷积神经网络直接映射原始图像到航点和所需速度的强鲁棒性生成,使用路径规划和控制系统生成短的、最小时间轨迹段,测试表明该方法能够在动态环境中准确和稳健地实现无人机的自主飞行,不需要昂贵的硬件和昂贵的图像处理,且比专业的人类驾驶员更加高效。
Jun, 2018
我们将最先进的规划和控制系统与卷积神经网络相结合,实现了自主机器人在动态环境中的高速飞行和对感知目标的实时认识,无需进行任何调整,同时通过领域随机化生成大量的模拟数据,使我们的系统对光照和目标出现变化具有鲁棒性,实现了在敏捷无人机飞行任务中的零次模拟到实际的成功展示。
May, 2019
该论文探讨在野外环境中为无人机创建高效的搜索任务的深度强化学习方法,通过利用先验数据和概率分布图,学习最优的飞行路径以快速找到失踪者,实验结果表明,与传统覆盖规划和搜索规划算法相比,深度强化学习方法在搜索时间上取得了显著改进。
May, 2024
本文提出了一个新颖的自主、基于视觉的无人机竞速系统,结合学习的数据抽象、非线性滤波和最优时间轨迹规划,该系统已成功在 2019 年 AlphaPilot 挑战赛中部署。与传统的无人机竞赛系统不同,该方法利用任何可见的门并利用多个同时检测到的门来补偿状态估计中的漂移和构建门的全局地图。全局的地图和补偿漂移的状态估计使得无人机在比赛中可以在门不直接可见时导航,并且可以基于近似的无人机动力学实时规划近似最佳路径通过比赛赛道。所提出的系统已经成功地指导无人机穿越狭窄的比赛赛道,达到了每秒 8 米的速度,并在 2019 年 AlphaPilot 挑战赛中排名第二。
May, 2020