使用深度强化学习的星际争霸 II 模块化架构

AAAINov, 2018

使用深度强化学习的星际争霸 II 模块化架构

Modular Architecture for StarCraft II with Deep Reinforcement Learning

Dennis Lee, Haoran Tang, Jeffrey O Zhang, Huazhe Xu, Trevor Darrell...

TL;DR本研究提出了一种新颖的 StarCraft II AI 模块化架构，其通过分配不同的模块控制游戏的不同方面（例如选址和策略），实现了独立或联合优化，并采用深度强化学习技术，通过自我对战进行训练，对六个模块中的两个模块进行训练，以 94％或 87％的胜率在 Zerg vs.Zerg 比赛中击败了 “Harder （5 级）”Blizzard bot，具有适用性及实用价值。

Abstract

We present a novel modular architecture for starcraft ii ai. The architecture splits responsibilities between multiple modules that each control one aspect of the game, such as build-order selection or tactics. A

starcraft ii ai modular architecture reinforcement learning game strategy macro management

发现论文，激发创造

使用深度学习从 StarCraft 回放中学习宏观管理

本文介绍了如何使用深度学习从游戏回放数据中学习 StarCraft 中的宏观管理决策，并在开源的 StarCraft 机器人 UAlbertaBot 中实现，取得了比游戏内置 bot 更好的表现。该方法能够表达各种不同的策略，并且可以进一步通过深度强化学习提高表现，最终实现不再依赖硬编码策略的强大 StarCraft bot。

Jul, 2017

关于《星际争霸 Ⅱ》全游戏的高效强化学习研究

本研究通过使用一系列强化学习技术，包括层次化体系结构、课程转移学习和战斗模型等方法，在 StarCraft II 游戏上进行了训练，并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较，证明了该方法的有效性。

Sep, 2022

星际争霸全程游戏的强化学习

本论文研究了适用于 StarCraft II 游戏的分层强化学习方法，其中包括宏动作、双层分层结构以及课程转移学习算法，取得了较好的游戏成绩并证明了其强泛化性能。

Sep, 2018

利用深度强化学习进行星际争霸宏观动作选择

本研究采用基于深度强化学习的方法构建了一款名为 LastOrder 的机器人，旨在提高 StarCraft 游戏中宏观行动的选择。实验表明，LastOrder 在 AIIDE'17 StarCraft AI 比赛中排名前列，证明了该方法的有效性。

Dec, 2018

SCC：高效深度强化学习游戏代理掌握星际争霸 II

本文介绍了基于深度强化学习的智能体 StarCraft Commander (SCC)，通过优化效率和以少量复杂度达到媲美 GM 级水平及击败职业玩家的成果，为进一步在复杂即时策略游戏方向探究提供了可能与展望。该成果对应用深度学习模型进行模仿学习和强化学习进行了关键分析和优化。

Dec, 2020

星际争霸 II：强化学习的新挑战

介绍了一种基于《星际争霸 II》游戏的增强学习环境 SC2LE，通过使用该环境，可以探索深度强化学习算法和架构。

Aug, 2017

使用强化学习和课程迁移学习进行星际争霸微观管理

本文提出了一种强化学习和课程迁移学习方法，用于在 StarCraft 的微观管理中控制多个单位。通过定义高效的状态表示，并采用参数共享多智能体梯度下降 Sarsa 算法，使用神经网络作为函数逼近器来评估动作价值函数，建立奖励函数，使用迁移学习方法将模型推广到更具挑战性的情境，并鼓励协作行为，成功地在小规模情境中将内置 AI 击败。在大规模情境中，使用课程迁移学习方法逐步训练一组单位，并在目标情境中显示出优越的性能。

Apr, 2018

AlphaStar Unplugged：大规模离线强化学习

这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中，利用大量的离线数据集和机器学习方法，建立了一个新的基准 AlphaStar Unplugged，提出了离线强化学习的前沿技术，并且取得了 90% 的胜率。

Aug, 2023

利用 Transformer 模型进行 StarCraft 宏观管理预测

本文介绍了基于 transformers 的神经架构在 StarCraft II 游戏的 macromanagement 中的应用，通过 MSC 数据集的实验证明了该架构是优秀的，尤其在 transfer learning 方面表现优异。

Oct, 2021

多智能体 MOBA 游戏的分层强化学习

本文提出了一种新颖的分层强化学习模型，通过模仿学习从事宏观策略，并通过强化学习进行微观操作，以应对多人在线战斗竞技游戏 (MOBA) 中包含的大量状态空间、动作空间和隐藏信息，并且该模型在缺乏游戏引擎或 API 的情况下，还设计了一种密集的奖励函数来鼓励多个智能体合作。实验结果表明该方法能够在 MOBA 游戏中获得优异表现，如在王者荣耀 5v5 模式中成功与内置 AI 进行战斗且胜率达到 100%。

Jan, 2019