BVR Gym: 超视距空战的增强学习环境

Mar, 2024

BVR Gym: 超视距空战的增强学习环境

BVR Gym: A Reinforcement Learning Environment for Beyond-Visual-Range Air Combat

Edvards Scukins, Markus Klein, Lars Kroon, Petter Ögren

TL;DR使用强化学习环境研究超视距空战领域的潜在空战策略，提供基于开源飞行动力学模拟器 JSBSim 的高保真度环境，描述了环境的构建组成和一些应用案例。

Abstract

Creating new air combat tactics and discovering novel maneuvers can require numerous hours of expert pilots' time. Additionally, for each different combat scenario, the same strategies may not work since small ch

air combat tactics maneuvers reinforcement learning environment beyond-visual-range air combat high-fidelity simulations

发现论文，激发创造

基于深度强化学习的超视距空战自主智能体

本研究基于深度强化学习，开发一个能够在视距范围以外的空战模拟环境中运作的智能体。通过基于操作指标计算的奖励，使智能体能够学习和不断提高其在视距范围以外的空战中的角色，并通过自我对战实验来生成新的空战战术。该研究旨在探究使用虚拟模拟场景，对与训练有素的智能体进行互动并比较其表现的真实飞行员的能力，从而开发能够与真实飞行员互动以提高其空防任务表现的代理。

Apr, 2023

学会飞行 -- 一种使用 PyBullet 物理引擎的 Gym 环境，用于多智能体四轴飞行器控制的强化学习

本文介绍了一种基于 Bullet 物理引擎的开源多旋翼 OpenAI Gym 环境，并通过多个实验展示了其在控制和强化学习方面的应用，旨在鼓励将控制理论和机器学习相结合的未来研究。

Mar, 2021

基于深度学习的多导弹躲避态势感知

提出了一种基于深度神经网络的决策支持工具，用于帮助无人机操作员在超视距空战场景中评估不同选项的风险，并根据评估结果做出决策。通过学习高保真度模拟实现的方法可以管理多个进攻导弹，评估多种策略，并推荐最低风险的行动方案。

Feb, 2024

Harfang3D Dog-Fight Sandbox: 战斗机定制控制任务的强化学习研究平台

介绍了一个半真实的飞行模拟环境 Harfang3D Dog-Fight Sandbox，为研究利用强化学习控制飞机的主要挑战提供了一个灵活的工具箱，可以使用深度强化学习技术进行训练，进而训练出能够表现出类似于人类行为的智能代理。

Oct, 2022

6-DOF 无人战斗机空对空作战的分层深度强化学习框架

本文提出了一个基于强化学习的层次化框架解决 UCAV 在视场范围内的空中格斗问题，将整个决策过程分为两个循环，并采用 PPO 算法训练，实验结果表明，内部循环控制器的跟踪性能优于 PID 控制器，而外部循环策略可以执行复杂的机动以获得更高的获胜率，通过生成不断进化的历史策略对抗的虚假自我博弈机制来提高战斗性能。

Dec, 2022

面向外界开放的外科机器人强化学习环境

开发了第一个基于强化学习的外科手术机器人环境 ——dVRL，通过 RL 环境演示了在外科手术中实现自主机器人精准和协作问题的最新算法策略。

Mar, 2019

层次化多智能体强化学习在空战机动中的应用

应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Sep, 2023

VRKitchen：面向任务学习的交互式 3D 虚拟环境

通过 VRKitchen 的虚拟现实环境和集成功能，该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理，使人类教师能够进行演示培训，为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。

Mar, 2019

机器学习在空战行为建模中的调查

近年来，随着机器学习的快速发展，创建在模拟空中战斗中表现逼真的代理人已成为一个引起广泛兴趣的领域。该调查探讨了机器学习技术在模拟空中战斗行为建模方面的应用，旨在增强基于模拟的飞行员培训。当前的模拟实体往往缺乏逼真的行为，并且传统的行为建模需要大量劳动力并容易在开发过程中丢失基本领域知识。加强学习和模仿学习算法的进步表明代理人可以从数据中学习复杂的行为，这可能比手动方法更快且更具可伸缩性。然而，使自适应代理人能够执行战术机动和操作武器和传感器仍然是一项重大挑战。该调查研究了应用、行为模型类型、普遍的机器学习方法以及开发自适应和具有逼真行为的代理人所面临的技术和人类挑战。另一个挑战是将代理人从学习环境转移到军事模拟系统以及标准化的需求。为此，提出了四个主要建议，包括加强对超视距场景、多代理机器学习和合作、利用分层行为模型以及标准化和研究合作的重视。这些建议旨在解决当前问题，指导开发更全面、适应性更强、更逼真的基于机器学习的空中战斗行为模型。

Apr, 2024

空域学习环境（LEAD）

LEAD 是一个基于机器学习来创建和整合智能空中战斗行为的系统，它能够与不同精度的模拟系统进行通信和协作，有效减少军事模拟训练中手工命令模式的时间成本。

Apr, 2023