异步课程经验回放：一种深度强化学习方法，用于未知动态环境中的无人机自主运动控制

Jul, 2022

异步课程经验回放：一种深度强化学习方法，用于未知动态环境中的无人机自主运动控制

Asynchronous Curriculum Experience Replay: A Deep Reinforcement Learning Approach for UAV Autonomous Motion Control in Unknown Dynamic Environments

PDF

Zijian Hu, Xiaoguang Gao, Kaifang Wan, Qianglong Wang, Yiwei Zhai

TL;DR使用深度强化学习方法，将自主运动控制问题建模成马尔科夫决策过程，并通过异步课程经验回放算法以及课程学习的训练范式，在动态三维环境中训练并改进了无人机控制策略，结果表明，该算法在速度和精度上均优于现有算法，且在不同环境下都表现出较强的鲁棒性和泛化能力。

Abstract

unmanned aerial vehicles (UAVs) have been widely used in military warfare. In this paper, we formulate the autonomous motion control (AMC) problem as a Markov decision process (MDP) and propose an advanced deep r

unmanned aerial vehicles autonomous motion control deep reinforcement learning asynchronous curriculum experience replay curriculum learning

发现论文，激发创造

通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数

本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。

Jul, 2023

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Dec, 2022

基于深度强化学习的无人机无线数据采集路径规划

该论文提出一种新的端到端强化学习方法来规划机载无人机收集物联网中的分布式传感器节点的数据，以实现对下一代通信网络的支持。通过训练一个双重深度 Q 网络来实现对不同情况参数的泛化控制，从而使代理可以根据平衡数据收集目标和飞行时间效率的安全约束，在各种场景参数下做出运动决策。

Jul, 2020

应用 MPC - 强化学习方法的无人机路径规划考虑避障

本文提出一种基于深度学习算法的无人机航迹规划方法，采用 LSTM-MPC 作为决策策略，并结合预测池来提高系统鲁棒性和效率，同时通过数值仿真实验验证了该方法的有效性。

Feb, 2023

自主翱翔的模仿强化学习框架

本文提出了一种新颖的模仿式强化学习框架，通过高效利用专家数据进行自主探索，不仅提高了学习效率，还通过强化学习实现了对动态环境的适应性，在无人战斗机的领域中学习到了成功的战斗策略。在基于 Harfang3D 沙盒环境上的实验中，我们的框架在多阶段空战中表现出色，显著优于现有的强化学习和模仿学习方法，具备模仿专家和自主探索的能力，能够快速学习复杂的空中作战任务中的关键知识，实现高达 100％的成功率并展示出极佳的稳健性。

Jun, 2024

基于可解释的深度强化学习的无人机导航与规划中的鲁棒性对抗攻击检测

采用可解释的深度学习方法为指导和规划的无人机构建了一个仿真环境，其中包括障碍和对抗性攻击，并建立了对此的对抗性攻击检测器

Jun, 2022

使用视觉无人机群进行协作目标搜索：一种自适应嵌入多阶段强化学习方法

本文提出了一种新的数据高效强化学习方法（Adaptive Curriculum Embedded Multi-Stage Learning，ACEMSL）来解决协作目标搜索的挑战，该方法可在可视无人机群中实现协作任务，并通过模拟和实际飞行测试验证了其有效性和泛化能力。

Apr, 2022

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

通过延迟策略学习改善空中和陆地移动机器人控制的泛化性能

通过延迟策略更新技术（DPU）对航空和陆地移动机器人进行的分析表明，这种技术极大地缓解了推广能力不足的问题，并加速了代理的学习过程，提高了它们在各种任务和未知场景中的效率。

Jun, 2024

多智能体深度强化学习在多无人机辅助移动边缘计算中的轨迹规划应用

提出一种无人机辅助的移动边缘计算框架，采用多智能体深度强化学习算法来优化无人机的轨迹，同时通过低复杂度方法优化用户设备的卸载决策。该解决方案相较于传统算法在服务用户设备公平性、无人机负载公平性和所有用户设备的能耗上性能表现较好。

Sep, 2020