支持决策的数字战争游戏中用于扩展人工智能
未来与先进技术竞争对手保持竞争力需要加快我们在战争推演中人工智能(AI)的研发。更重要的是,利用机器学习进行智能战斗行为开发将成为未来实现超人类表现的关键,提高未来战争决策的质量和加速速度。尽管深度强化学习(RL)在智能代理行为开发方面仍然显示出有希望的结果,但在战斗模拟中通常遇到的长远、复杂任务中尚未达到或超过人类水平。充分利用 RL 的成功潜力和分层强化学习(HRL)的最新成功,我们的研究正在探索和扩展 HRL 的使用,以创建能在这些庞大而复杂的模拟环境中有效执行的智能代理。我们的最终目标是开发出一个能够具有超人类表现的代理,然后作为军事规划者和决策者的人工智能顾问。本文介绍了我们正在进行的方法以及我们的五个研究领域中的前三个,旨在管理迅速增长的计算,这些计算迄今为止限制了 AI 在战斗模拟中的使用: (1)为作战单位开发 HRL 训练框架和代理架构;(2)开发代理决策的多模型框架;(3)开发维度不变的状态空间观察抽象化以管理计算的指数增长;(4)开发内在奖励引擎以实现长期规划;(5)将该框架实施到更高保真度的战斗模拟中。
Feb, 2024
通过大语言模型,我们引入了 “Snow Globe”,一个为玩质性战争游戏提供支持的多智能体系统,可以自动化进行从情景准备到游戏分析的各个阶段,以实现定量战争游戏自动化的潜力。
Apr, 2024
未来作战将要求指挥与控制(C2)人员在复杂且潜在模糊的情况下以缩短的时间段做出决策。与机器学习算法合作以引导算法行为的交互式机器学习有望在 C2 作战过程中发挥潜力,带来适应性和效率的革新。本文提出在现有科学技术中存在的一些差距,并描述了三个研究重点领域,旨在实现可扩展的交互式机器学习(SIML):1)开发人工智能交互算法以在复杂动态情境下进行规划;2)通过优化角色、配置和信任来培养弹性的人工智能与人类团队;3)为适应一系列潜在情境和情况扩大算法和人工智能团队的规模。
Feb, 2024
战争游戏在军事战略发展和国家对威胁或攻击的反应中有着悠久的历史。人工智能的出现在决策制定和军事效力提升方面承诺着更好的结果。然而,关于人工智能系统,特别是大型语言模型与人类的行为差异仍存在争议。为此,我们使用了一个涉及 107 位国家安全专家人类参与者的战争游戏实验,旨在研究虚构的中美危机升级情景中的人类参与者与模拟大型语言模型回应之间的比较。我们发现,模拟大型语言模型与人类回应之间存在显著的定量和定性差异,这提醒决策制定者在授权自主权或遵循基于人工智能的策略建议之前要谨慎。
Mar, 2024
应用人工智能模拟空战场景吸引了越来越多的关注,本文提出了一种用于多个异构代理的空中对空战斗的层次化多代理强化学习框架,其中命令决策过程划分为两个抽象阶段,低级政策控制个体单位的行动,高级指挥官政策根据总体任务目标下达宏观指令,并通过针对预先训练的低级政策对任务目标进行训练,实验证明了我们设计的优点。
Sep, 2023
通过分析职业围棋选手过去 71 年中超过 580 万次决策,使用超级人工智能程序评估人类决策质量并比较人类决策和人工智能决策的胜率,结果表明,超级人工智能的出现促使人类玩家从传统策略中脱颖而出,导致他们去探索一些新的策略,从而提高了决策能力。
Mar, 2023
该论文探讨了普遍人工智能对战斗性质的变化。在超越将人工智能替代专家的方式之外,我们提出了一种将人类和机器的能力相互结合的方法。通过历史和现代的例子,我们展示了如何通过人类 “AI 操作员” 与 AI/ML “代理操作员” 的团队来有效管理自主武器系统。通过将我们的解决方案基于补充原则,我们为管理致命自主系统提供了一种灵活和动态的方法。最后,我们提出了实现机器化作战整体愿景的路径,即由 AI 操作员操作战场 AI 以观察战场的行为模式以评估致命自主系统的性能。这种方法使得开发出的战斗系统可能更加道德化、运行速度更快,并能够应对更广泛的动态战场条件,超越任何纯粹自主人工智能系统能够支持的范围。
Apr, 2024
本文使用分层复杂系统框架对人工智能(AI)风险进行建模,并从公共和私营领域的领域专家收集调查数据以分类 AI 影响和可能性,结果显示强大的 AI 代理情景有更多不确定性,对 AI 对齐失败和影响寻求行为的关注增加以及对多智能体环境的信心增强。
Nov, 2022
人工智能在国防工业中的应用越来越重要,Lockheed Martin 在参加 DARPA AlphaDogfight Trials 竞赛时,使用基于 Hierarchical 架构与最大熵强化学习(RL),通过奖励塑形整合专业知识,并支持策略的模块化方法,取得了第二名的好成绩,并在比赛中击败了美国空军 F-16 武器教官课程的毕业生。
May, 2021