战争游戏中智能代理的规模化

Feb, 2024

Scaling Intelligent Agents in Combat Simulations for Wargaming

Scotty Black, Christian Darken

TL;DR未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能（AI）的研发。更重要的是，利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键，提高未来战争决策的质量和加速速度。尽管深度强化学习（RL）在智能代理行为开发方面仍然显示出有希望的结果，但在战斗模拟中通常遇到的长远、复杂任务中尚未达到或超过人类水平。充分利用 RL 的成功潜力和分层强化学习（HRL）的最新成功，我们的研究正在探索和扩展 HRL 的使用，以创建能在这些庞大而复杂的模拟环境中有效执行的智能代理。我们的最终目标是开发出一个能够具有超人类表现的代理，然后作为军事规划者和决策者的人工智能顾问。本文介绍了我们正在进行的方法以及我们的五个研究领域中的前三个，旨在管理迅速增长的计算，这些计算迄今为止限制了 AI 在战斗模拟中的使用: （1）为作战单位开发 HRL 训练框架和代理架构；（2）开发代理决策的多模型框架；（3）开发维度不变的状态空间观察抽象化以管理计算的指数增长；（4）开发内在奖励引擎以实现长期规划；（5）将该框架实施到更高保真度的战斗模拟中。

Abstract

Remaining competitive in future conflicts with technologically-advanced competitors requires us to accelerate our research and development in artificial intelligence (AI) for wargaming. More importantly, leveraging mach

artificial intelligence machine learning reinforcement learning hierarchical reinforcement learning combat simulation

发现论文，激发创造

支持决策的数字战争游戏中用于扩展人工智能

本文介绍了在技术驱动的转型时代，加强对人工智能在决策支持军事模拟中的应用的投资的重要性，通过推进人工智能系统和人类判断的结合来提高全域意识、改善决策周期的速度和质量、提供新型行动建议以及更迅速地应对对手行动；同时提出了通过深度强化学习来开发智能代理行为的前景与挑战，进一步讨论了通过多模型方法和维度不变观察抽象来开发层次强化学习框架的研究。

Feb, 2024

层次化多智能体强化学习在空战机动中的应用

应用人工智能模拟空战场景吸引了越来越多的关注，本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架，其中命令决策过程划分为两个抽象阶段，低级政策控制个体单位的行动，高级指挥官政策根据总体任务目标下达宏观指令，并通过针对预先训练的低级政策对任务目标进行训练，实验证明了我们设计的优点。

Sep, 2023

机器学习在空战行为建模中的调查

近年来，随着机器学习的快速发展，创建在模拟空中战斗中表现逼真的代理人已成为一个引起广泛兴趣的领域。该调查探讨了机器学习技术在模拟空中战斗行为建模方面的应用，旨在增强基于模拟的飞行员培训。当前的模拟实体往往缺乏逼真的行为，并且传统的行为建模需要大量劳动力并容易在开发过程中丢失基本领域知识。加强学习和模仿学习算法的进步表明代理人可以从数据中学习复杂的行为，这可能比手动方法更快且更具可伸缩性。然而，使自适应代理人能够执行战术机动和操作武器和传感器仍然是一项重大挑战。该调查研究了应用、行为模型类型、普遍的机器学习方法以及开发自适应和具有逼真行为的代理人所面临的技术和人类挑战。另一个挑战是将代理人从学习环境转移到军事模拟系统以及标准化的需求。为此，提出了四个主要建议，包括加强对超视距场景、多代理机器学习和合作、利用分层行为模型以及标准化和研究合作的重视。这些建议旨在解决当前问题，指导开发更全面、适应性更强、更逼真的基于机器学习的空中战斗行为模型。

Apr, 2024

用于空中对空战斗的分层强化学习

人工智能在国防工业中的应用越来越重要，Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时，使用基于 Hierarchical 架构与最大熵强化学习（RL），通过奖励塑形整合专业知识，并支持策略的模块化方法，取得了第二名的好成绩，并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。

May, 2021

基于人群的深度强化学习在第一人称多人游戏中达到人类水平的表现

本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体，这些智能体仅使用 Q3A 视频游戏的像素和游戏得分作为输入，即使在富有挑战性的多智能体环境中互相协作和竞争，这些智能体也能够达到类人水平，并展现出人类般的行为表现。

Jul, 2018

未来指挥与控制的可扩展交互式机器学习

未来作战将要求指挥与控制（C2）人员在复杂且潜在模糊的情况下以缩短的时间段做出决策。与机器学习算法合作以引导算法行为的交互式机器学习有望在 C2 作战过程中发挥潜力，带来适应性和效率的革新。本文提出在现有科学技术中存在的一些差距，并描述了三个研究重点领域，旨在实现可扩展的交互式机器学习（SIML）：1）开发人工智能交互算法以在复杂动态情境下进行规划；2）通过优化角色、配置和信任来培养弹性的人工智能与人类团队；3）为适应一系列潜在情境和情况扩大算法和人工智能团队的规模。

Feb, 2024

现实世界复杂环境中的人工智能协作与强化学习

在复杂的模拟环境中，研究表明人工智能与人类的合作胜过仅有人类或仅有人工智能代理的情况，并开发出了一种用户界面，使人类有效地协助人工智能代理。

Dec, 2023

针对强化学习网络攻击代理的多智能体网络战模拟器

本文介绍了一个名为 CyberBattleSim 的 RL 训练环境，其支持红方攻击者的训练，并引入了蓝方防御者的训练。实验表明，与红方攻击者同时训练的蓝方防御者能够更好地应对复杂的攻击手段。

Apr, 2023

关于团队运动比赛中的多智能体学习

本文提出了一种分层训练智能体的方法，以期在团队运动游戏中实现类似于人类的风格和高水平的表现，初步结果显示所提出的方法具有解决多智能体学习问题的潜力。

Jun, 2019

战争大象：重新思考战斗人工智能与人类监管

该论文探讨了普遍人工智能对战斗性质的变化。在超越将人工智能替代专家的方式之外，我们提出了一种将人类和机器的能力相互结合的方法。通过历史和现代的例子，我们展示了如何通过人类 “AI 操作员” 与 AI/ML “代理操作员” 的团队来有效管理自主武器系统。通过将我们的解决方案基于补充原则，我们为管理致命自主系统提供了一种灵活和动态的方法。最后，我们提出了实现机器化作战整体愿景的路径，即由 AI 操作员操作战场 AI 以观察战场的行为模式以评估致命自主系统的性能。这种方法使得开发出的战斗系统可能更加道德化、运行速度更快，并能够应对更广泛的动态战场条件，超越任何纯粹自主人工智能系统能够支持的范围。

Apr, 2024