层次化多智能体强化学习在空战机动中的应用

ICMLSep, 2023

层次化多智能体强化学习在空战机动中的应用

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Ardian Selmonaj, Oleg Szehr, Giacomo Del Rio, Alessandro Antonucci, Adrian Schneider...

TL;DR应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Abstract

The application of artificial intelligence to simulate air-to-air combat scenarios is attracting increasing attention. To date the high-dimensional state and action spaces, the high complexity of situation inform

artificial intelligence air-to-air combat hierarchical multi-agent reinforcement learning mission targets learning curriculum

发现论文，激发创造

用于空中对空战斗的分层强化学习

人工智能在国防工业中的应用越来越重要，Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时，使用基于 Hierarchical 架构与最大熵强化学习（RL），通过奖励塑形整合专业知识，并支持策略的模块化方法，取得了第二名的好成绩，并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。

May, 2021

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Dec, 2022

基于强化学习的空战机动生成

本研究提出了一种利用深度强化学习技术（TD3）和经验回放（HER）来优化具有 Dubin 车辆动力学特性的无人机在二维空间中达到目标路径的方法，并在两种不同环境下进行了模拟实验，可用于 UAV 自主机动决策等领域。

Jan, 2022

基于课程学习和稀疏奖励的自主空战机动决策

本文在研究基于强化学习的自主空战机动决策方法时，考虑到稀疏奖励可能会导致训练时间长且效果不佳的问题，提出了基于课程学习的方法包括三个不同的课程：角度课程、距离课程和混合课程，实验结果表明，角度课程可以提高训练速度和性能，距离课程可以提高训练速度和稳定性，混合课程对训练有负面影响。最终通过模拟结果表明，在训练后，智能体能够处理来自不同方向的目标，并且决策结果与导弹特性一致。

Feb, 2023

战争游戏中智能代理的规模化

未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能（AI）的研发。更重要的是，利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键，提高未来战争决策的质量和加速速度。尽管深度强化学习（RL）在智能代理行为开发方面仍然显示出有希望的结果，但在战斗模拟中通常遇到的长远、复杂任务中尚未达到或超过人类水平。充分利用 RL 的成功潜力和分层强化学习（HRL）的最新成功，我们的研究正在探索和扩展 HRL 的使用，以创建能在这些庞大而复杂的模拟环境中有效执行的智能代理。我们的最终目标是开发出一个能够具有超人类表现的代理，然后作为军事规划者和决策者的人工智能顾问。本文介绍了我们正在进行的方法以及我们的五个研究领域中的前三个，旨在管理迅速增长的计算，这些计算迄今为止限制了 AI 在战斗模拟中的使用: （1）为作战单位开发 HRL 训练框架和代理架构；（2）开发代理决策的多模型框架；（3）开发维度不变的状态空间观察抽象化以管理计算的指数增长；（4）开发内在奖励引擎以实现长期规划；（5）将该框架实施到更高保真度的战斗模拟中。

Feb, 2024

机器学习在空战行为建模中的调查

近年来，随着机器学习的快速发展，创建在模拟空中战斗中表现逼真的代理人已成为一个引起广泛兴趣的领域。该调查探讨了机器学习技术在模拟空中战斗行为建模方面的应用，旨在增强基于模拟的飞行员培训。当前的模拟实体往往缺乏逼真的行为，并且传统的行为建模需要大量劳动力并容易在开发过程中丢失基本领域知识。加强学习和模仿学习算法的进步表明代理人可以从数据中学习复杂的行为，这可能比手动方法更快且更具可伸缩性。然而，使自适应代理人能够执行战术机动和操作武器和传感器仍然是一项重大挑战。该调查研究了应用、行为模型类型、普遍的机器学习方法以及开发自适应和具有逼真行为的代理人所面临的技术和人类挑战。另一个挑战是将代理人从学习环境转移到军事模拟系统以及标准化的需求。为此，提出了四个主要建议，包括加强对超视距场景、多代理机器学习和合作、利用分层行为模型以及标准化和研究合作的重视。这些建议旨在解决当前问题，指导开发更全面、适应性更强、更逼真的基于机器学习的空中战斗行为模型。

Apr, 2024

基于深度强化学习的超视距空战自主智能体

本研究基于深度强化学习，开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励，使智能体能够学习和不断提高其在视距范围以外的空战中的角色，并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景，对与训练有素的智能体进行互动并比较其表现的真实飞行员的能力，从而开发能够与真实飞行员互动以提高其空防任务表现的代理。

Apr, 2023

通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数

本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。

Jul, 2023

自主翱翔的模仿强化学习框架

本文提出了一种新颖的模仿式强化学习框架，通过高效利用专家数据进行自主探索，不仅提高了学习效率，还通过强化学习实现了对动态环境的适应性，在无人战斗机的领域中学习到了成功的战斗策略。在基于 Harfang3D 沙盒环境上的实验中，我们的框架在多阶段空战中表现出色，显著优于现有的强化学习和模仿学习方法，具备模仿专家和自主探索的能力，能够快速学习复杂的空中作战任务中的关键知识，实现高达 100％的成功率并展示出极佳的稳健性。

Jun, 2024

未知环境映射的异构多智能体强化学习

本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Oct, 2020