用于空中对空战斗的分层强化学习

May, 2021

用于空中对空战斗的分层强化学习

Hierarchical Reinforcement Learning for Air-to-Air Combat

Adrian P. Pope, Jaime S. Ide, Daria Micovic, Henry Diaz, David Rosenbluth...

TL;DR人工智能在国防工业中的应用越来越重要，Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时，使用基于 Hierarchical 架构与最大熵强化学习（RL），通过奖励塑形整合专业知识，并支持策略的模块化方法，取得了第二名的好成绩，并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。

Abstract

artificial intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA`s alphadogfight trials (ADT). ADT sought to vet the feasibility of AI algorithms capable of

artificial intelligence defense industry alphadogfight trials lockheed martin reinforcement learning

发现论文，激发创造

层次化多智能体强化学习在空战机动中的应用

应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Sep, 2023

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

战争游戏中智能代理的规模化

未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能（AI）的研发。更重要的是，利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键，提高未来战争决策的质量和加速速度。尽管深度强化学习（RL）在智能代理行为开发方面仍然显示出有希望的结果，但在战斗模拟中通常遇到的长远、复杂任务中尚未达到或超过人类水平。充分利用 RL 的成功潜力和分层强化学习（HRL）的最新成功，我们的研究正在探索和扩展 HRL 的使用，以创建能在这些庞大而复杂的模拟环境中有效执行的智能代理。我们的最终目标是开发出一个能够具有超人类表现的代理，然后作为军事规划者和决策者的人工智能顾问。本文介绍了我们正在进行的方法以及我们的五个研究领域中的前三个，旨在管理迅速增长的计算，这些计算迄今为止限制了 AI 在战斗模拟中的使用: （1）为作战单位开发 HRL 训练框架和代理架构；（2）开发代理决策的多模型框架；（3）开发维度不变的状态空间观察抽象化以管理计算的指数增长；（4）开发内在奖励引擎以实现长期规划；（5）将该框架实施到更高保真度的战斗模拟中。

Feb, 2024

Harfang3D Dog-Fight Sandbox: 战斗机定制控制任务的强化学习研究平台

介绍了一个半真实的飞行模拟环境 Harfang3D Dog-Fight Sandbox，为研究利用强化学习控制飞机的主要挑战提供了一个灵活的工具箱，可以使用深度强化学习技术进行训练，进而训练出能够表现出类似于人类行为的智能代理。

Oct, 2022

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Dec, 2022

自主翱翔的模仿强化学习框架

本文提出了一种新颖的模仿式强化学习框架，通过高效利用专家数据进行自主探索，不仅提高了学习效率，还通过强化学习实现了对动态环境的适应性，在无人战斗机的领域中学习到了成功的战斗策略。在基于 Harfang3D 沙盒环境上的实验中，我们的框架在多阶段空战中表现出色，显著优于现有的强化学习和模仿学习方法，具备模仿专家和自主探索的能力，能够快速学习复杂的空中作战任务中的关键知识，实现高达 100％的成功率并展示出极佳的稳健性。

Jun, 2024

基于深度强化学习的超视距空战自主智能体

本研究基于深度强化学习，开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励，使智能体能够学习和不断提高其在视距范围以外的空战中的角色，并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景，对与训练有素的智能体进行互动并比较其表现的真实飞行员的能力，从而开发能够与真实飞行员互动以提高其空防任务表现的代理。

Apr, 2023

机器学习在空战行为建模中的调查

近年来，随着机器学习的快速发展，创建在模拟空中战斗中表现逼真的代理人已成为一个引起广泛兴趣的领域。该调查探讨了机器学习技术在模拟空中战斗行为建模方面的应用，旨在增强基于模拟的飞行员培训。当前的模拟实体往往缺乏逼真的行为，并且传统的行为建模需要大量劳动力并容易在开发过程中丢失基本领域知识。加强学习和模仿学习算法的进步表明代理人可以从数据中学习复杂的行为，这可能比手动方法更快且更具可伸缩性。然而，使自适应代理人能够执行战术机动和操作武器和传感器仍然是一项重大挑战。该调查研究了应用、行为模型类型、普遍的机器学习方法以及开发自适应和具有逼真行为的代理人所面临的技术和人类挑战。另一个挑战是将代理人从学习环境转移到军事模拟系统以及标准化的需求。为此，提出了四个主要建议，包括加强对超视距场景、多代理机器学习和合作、利用分层行为模型以及标准化和研究合作的重视。这些建议旨在解决当前问题，指导开发更全面、适应性更强、更逼真的基于机器学习的空中战斗行为模型。

Apr, 2024

空域学习环境（LEAD）

LEAD 是一个基于机器学习来创建和整合智能空中战斗行为的系统，它能够与不同精度的模拟系统进行通信和协作，有效减少军事模拟训练中手工命令模式的时间成本。

Apr, 2023

基于对抗性韧性学习架构的复杂智能建模，探索和运行复杂的网络物理系统

本文介绍了 Adversarial Resilience Learning（ARL）概念，其定义了两个代理类，即攻击者和防御者，这两个代理机器人在没有任何领域知识的情况下互相探索和训练，并且可以使用广泛的模型自由和模型基础的深度强化学习算法，例如在复杂的电力网络上运行实验，以实现复杂环境下的检查和弹性运行。

May, 2020