6-DOF 无人战斗机空对空作战的分层深度强化学习框架

Dec, 2022

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV Air-to-Air Combat

Jiajun Chai, Wenzhang Chen, Yuanheng Zhu, Zong-xin Yao, Dongbin Zhao

TL;DR本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Abstract

unmanned combat air vehicle (UCAV) combat is a challenging scenario with continuous action space. In this paper, we propose a general hierarchical framework to resolve the within-vision-range (WVR) air-to-air combat problem under 6 dimensions of degree (6-DOF) dynamics. The core idea i

unmanned combat air vehicle reinforcement learning markov decision process combat strategy self-play mechanism

发现论文，激发创造

自主翱翔的模仿强化学习框架

本文提出了一种新颖的模仿式强化学习框架，通过高效利用专家数据进行自主探索，不仅提高了学习效率，还通过强化学习实现了对动态环境的适应性，在无人战斗机的领域中学习到了成功的战斗策略。在基于 Harfang3D 沙盒环境上的实验中，我们的框架在多阶段空战中表现出色，显著优于现有的强化学习和模仿学习方法，具备模仿专家和自主探索的能力，能够快速学习复杂的空中作战任务中的关键知识，实现高达 100％的成功率并展示出极佳的稳健性。

Jun, 2024

层次化多智能体强化学习在空战机动中的应用

应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Sep, 2023

可解释的无人战斗机机动决策的深度强化学习

该研究提出了一个三层无人战斗飞行器（UCAV）空战框架，其中深度强化学习（DRL）负责高级机动决策。首先构建了一个四通道低级控制法，然后构建了包含八种基本飞行机动（BFMs）的库。在 UCAV 空战中应用了双深度 Q 网络（DDQN）来选择 BFM，其中对手策略是使用 DT 构建的。我们的模拟结果显示，该智能体在与 DT 策略对战时可以达到 85.75% 的胜率，并且在面对各种未知对手时也能取得积极的结果。基于提出的框架，改进了 DRL 的空战可解释性。智能体执行 yo-yo 机动来调整转弯速率，提高机动性。出现的 “潜水追击” 行为还表明智能体可以生成利用对手的弱点的新战术。

May, 2024

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

基于深度强化学习的超视距空战自主智能体

本研究基于深度强化学习，开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励，使智能体能够学习和不断提高其在视距范围以外的空战中的角色，并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景，对与训练有素的智能体进行互动并比较其表现的真实飞行员的能力，从而开发能够与真实飞行员互动以提高其空防任务表现的代理。

Apr, 2023

基于人 - 强化学习回路的 UAV 障碍物避让在任意三维环境中

本篇论文探讨了基于深度强化学习方法的无人机在大规模 3D 复杂环境下的连续控制，以达到任何目标点并在飞行中自动避开障碍物，结果表明该方法可以在城市、农村和森林场景中成功降低训练收敛时间并提高导航任务的效率和准确性。

Apr, 2023

一种针对受干扰的无人机鲁棒监控控制的强化学习方法

本文提出了一种针对无人机的监督强化学习控制方法，通过与现有嵌入式控制交错的控制架构，以及针对恶劣风条件的稳健性表现，实现了对环境扰动的控制，使用 Tarot T-18 八旋翼机进行了案例研究，结果表明相对于大多数车辆中使用的经典级联控制结构，监督强化学习模式在面对未知的风力条件时取得了实质性的性能提高。

May, 2023

用于空中对空战斗的分层强化学习

人工智能在国防工业中的应用越来越重要，Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时，使用基于 Hierarchical 架构与最大熵强化学习（RL），通过奖励塑形整合专业知识，并支持策略的模块化方法，取得了第二名的好成绩，并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。

May, 2021

通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数

本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。

Jul, 2023

Harfang3D Dog-Fight Sandbox: 战斗机定制控制任务的强化学习研究平台

介绍了一个半真实的飞行模拟环境 Harfang3D Dog-Fight Sandbox，为研究利用强化学习控制飞机的主要挑战提供了一个灵活的工具箱，可以使用深度强化学习技术进行训练，进而训练出能够表现出类似于人类行为的智能代理。

Oct, 2022