星际争霸全程游戏的强化学习
本研究通过使用一系列强化学习技术,包括层次化体系结构、课程转移学习和战斗模型等方法,在 StarCraft II 游戏上进行了训练,并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较,证明了该方法的有效性。
Sep, 2022
这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中,利用大量的离线数据集和机器学习方法,建立了一个新的基准 AlphaStar Unplugged,提出了离线强化学习的前沿技术,并且取得了 90% 的胜率。
Aug, 2023
本文介绍了基于深度强化学习的智能体 StarCraft Commander (SCC),通过优化效率和以少量复杂度达到媲美 GM 级水平及击败职业玩家的成果,为进一步在复杂即时策略游戏方向探究提供了可能与展望。该成果对应用深度学习模型进行模仿学习和强化学习进行了关键分析和优化。
Dec, 2020
本文提出了一种强化学习和课程迁移学习方法,用于在 StarCraft 的微观管理中控制多个单位。通过定义高效的状态表示,并采用参数共享多智能体梯度下降 Sarsa 算法,使用神经网络作为函数逼近器来评估动作价值函数,建立奖励函数,使用迁移学习方法将模型推广到更具挑战性的情境,并鼓励协作行为,成功地在小规模情境中将内置 AI 击败。在大规模情境中,使用课程迁移学习方法逐步训练一组单位,并在目标情境中显示出优越的性能。
Apr, 2018
本研究提出了一种新颖的 StarCraft II AI 模块化架构,其通过分配不同的模块控制游戏的不同方面(例如选址和策略),实现了独立或联合优化,并采用深度强化学习技术,通过自我对战进行训练,对六个模块中的两个模块进行训练,以 94%或 87%的胜率在 Zerg vs.Zerg 比赛中击败了 “Harder (5 级)”Blizzard bot,具有适用性及实用价值。
Nov, 2018
本研究采用基于深度强化学习的方法构建了一款名为 LastOrder 的机器人,旨在提高 StarCraft 游戏中宏观行动的选择。实验表明,LastOrder 在 AIIDE'17 StarCraft AI 比赛中排名前列,证明了该方法的有效性。
Dec, 2018
本研究以即时战略游戏 StarCraft 为基础,通过使用深度神经网络控制器及启发式强化学习算法来解决些许的问题,同时展现此算法适用于将士兵实时控制过程转化为强化学习问题,获得了良好效果。
Sep, 2016
本文介绍了如何使用深度学习从游戏回放数据中学习 StarCraft 中的宏观管理决策,并在开源的 StarCraft 机器人 UAlbertaBot 中实现,取得了比游戏内置 bot 更好的表现。该方法能够表达各种不同的策略,并且可以进一步通过深度强化学习提高表现,最终实现不再依赖硬编码策略的强大 StarCraft bot。
Jul, 2017
本文中,我们提出了两种基于深度强化学习框架和分层动作空间的 AI 智能体 TStarBot1 和 TStarBot2,并评估它们在星际争霸 II 全场游戏中的表现,成功地战胜了从 1 至 10 级内置 AI 对手,标志着深度强化学习在星际争霸 II AI 研究领域取得了重要进展。
Sep, 2018