自主翱翔的模仿强化学习框架

Jun, 2024

An Imitative Reinforcement Learning Framework for Autonomous Dogfight

Siyuan Li, Rongchang Zuo, Peng Liu, Yingnan Zhao

TL;DR本文提出了一种新颖的模仿式强化学习框架，通过高效利用专家数据进行自主探索，不仅提高了学习效率，还通过强化学习实现了对动态环境的适应性，在无人战斗机的领域中学习到了成功的战斗策略。在基于 Harfang3D 沙盒环境上的实验中，我们的框架在多阶段空战中表现出色，显著优于现有的强化学习和模仿学习方法，具备模仿专家和自主探索的能力，能够快速学习复杂的空中作战任务中的关键知识，实现高达 100％的成功率并展示出极佳的稳健性。

Abstract

unmanned combat aerial vehicle (UCAV) dogfight, which refers to a fight between two or more UCAVs usually at close quarters, plays a decisive role on the aerial battlefields. With the evolution of →

unmanned combat aerial vehicle dogfight artificial intelligence imitative reinforcement learning autonomous exploration

发现论文，激发创造

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Dec, 2022

可解释的无人战斗机机动决策的深度强化学习

该研究提出了一个三层无人战斗飞行器（UCAV）空战框架，其中深度强化学习（DRL）负责高级机动决策。首先构建了一个四通道低级控制法，然后构建了包含八种基本飞行机动（BFMs）的库。在 UCAV 空战中应用了双深度 Q 网络（DDQN）来选择 BFM，其中对手策略是使用 DT 构建的。我们的模拟结果显示，该智能体在与 DT 策略对战时可以达到 85.75% 的胜率，并且在面对各种未知对手时也能取得积极的结果。基于提出的框架，改进了 DRL 的空战可解释性。智能体执行 yo-yo 机动来调整转弯速率，提高机动性。出现的 “潜水追击” 行为还表明智能体可以生成利用对手的弱点的新战术。

May, 2024

Harfang3D Dog-Fight Sandbox: 战斗机定制控制任务的强化学习研究平台

介绍了一个半真实的飞行模拟环境 Harfang3D Dog-Fight Sandbox，为研究利用强化学习控制飞机的主要挑战提供了一个灵活的工具箱，可以使用深度强化学习技术进行训练，进而训练出能够表现出类似于人类行为的智能代理。

Oct, 2022

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

层次化多智能体强化学习在空战机动中的应用

应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Sep, 2023

用于空中对空战斗的分层强化学习

人工智能在国防工业中的应用越来越重要，Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时，使用基于 Hierarchical 架构与最大熵强化学习（RL），通过奖励塑形整合专业知识，并支持策略的模块化方法，取得了第二名的好成绩，并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。

May, 2021

自主无人机导航的强化学习应用：系统综述

该研究探讨了使用强化学习算法解决无人机导航问题，讨论了不同环境下的算法特性和选择，并提出未来的研究方向。

Aug, 2022

基于深度强化学习的超视距空战自主智能体

本研究基于深度强化学习，开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励，使智能体能够学习和不断提高其在视距范围以外的空战中的角色，并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景，对与训练有素的智能体进行互动并比较其表现的真实飞行员的能力，从而开发能够与真实飞行员互动以提高其空防任务表现的代理。

Apr, 2023

基于可解释的深度强化学习的无人机导航与规划中的鲁棒性对抗攻击检测

采用可解释的深度学习方法为指导和规划的无人机构建了一个仿真环境，其中包括障碍和对抗性攻击，并建立了对此的对抗性攻击检测器

Jun, 2022

通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数

本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。

Jul, 2023