使用深度强化学习掌握 MOBA 游戏中的复杂控制

AAAIDec, 2019

使用深度强化学习掌握 MOBA 游戏中的复杂控制

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

Deheng Ye, Zhao Liu, Mingfei Sun, Bei Shi, Peilin Zhao...

TL;DR本文提出了一种深度强化学习框架，从系统和算法两个角度来解决 Multi-player Online Battle Arena（MOBA）1v1 游戏中复杂动作控制的问题，通过包括控制依赖解耦、动作遮罩、目标注意力和双剪辑 PPO 等多种新颖策略，训练出可以在 MOBA 游戏王者荣耀中打败顶级人类选手的 AI 代理 Tencent Solo。

Abstract

We study the reinforcement learning problem of complex action control in the Multi-player Online Battle Arena (MOBA) 1v1 games. This problem involves far more complicated state and action spaces than those of traditional 1v1 games, such as Go and Atari series, which makes it very diffi

reinforcement learning moba games deep learning actor-critic network tencent solo

发现论文，激发创造

使用深度强化学习玩完整的 MOBA 游戏

提出了一种 MOBA 游戏 AI 学习范式，采用深度强化学习及新型学习技术，可训练玩家池多的游戏并解决了可扩展性问题，测试结果表明该 AI 在王者荣耀等游戏中已能击败顶尖电竞选手。

Nov, 2020

多智能体 MOBA 游戏的分层强化学习

本文提出了一种新颖的分层强化学习模型，通过模仿学习从事宏观策略，并通过强化学习进行微观操作，以应对多人在线战斗竞技游戏 (MOBA) 中包含的大量状态空间、动作空间和隐藏信息，并且该模型在缺乏游戏引擎或 API 的情况下，还设计了一种密集的奖励函数来鼓励多个智能体合作。实验结果表明该方法能够在 MOBA 游戏中获得优异表现，如在王者荣耀 5v5 模式中成功与内置 AI 进行战斗且胜率达到 100%。

Jan, 2019

深度确定性策略的情节式探索：星际争霸微观管理任务应用

本研究以即时战略游戏 StarCraft 为基础，通过使用深度神经网络控制器及启发式强化学习算法来解决些许的问题，同时展现此算法适用于将士兵实时控制过程转化为强化学习问题，获得了良好效果。

Sep, 2016

关于《星际争霸 Ⅱ》全游戏的高效强化学习研究

本研究通过使用一系列强化学习技术，包括层次化体系结构、课程转移学习和战斗模型等方法，在 StarCraft II 游戏上进行了训练，并获得了高胜率。我们还将我们的方法与 mini-AlphaStar 进行比较，证明了该方法的有效性。

Sep, 2022

星际争霸全程游戏的强化学习

本论文研究了适用于 StarCraft II 游戏的分层强化学习方法，其中包括宏动作、双层分层结构以及课程转移学习算法，取得了较好的游戏成绩并证明了其强泛化性能。

Sep, 2018

利用深度强化学习进行星际争霸宏观动作选择

本研究采用基于深度强化学习的方法构建了一款名为 LastOrder 的机器人，旨在提高 StarCraft 游戏中宏观行动的选择。实验表明，LastOrder 在 AIIDE'17 StarCraft AI 比赛中排名前列，证明了该方法的有效性。

Dec, 2018

使用强化学习和课程迁移学习进行星际争霸微观管理

本文提出了一种强化学习和课程迁移学习方法，用于在 StarCraft 的微观管理中控制多个单位。通过定义高效的状态表示，并采用参数共享多智能体梯度下降 Sarsa 算法，使用神经网络作为函数逼近器来评估动作价值函数，建立奖励函数，使用迁移学习方法将模型推广到更具挑战性的情境，并鼓励协作行为，成功地在小规模情境中将内置 AI 击败。在大规模情境中，使用课程迁移学习方法逐步训练一组单位，并在目标情境中显示出优越的性能。

Apr, 2018

使用深度学习从 StarCraft 回放中学习宏观管理

本文介绍了如何使用深度学习从游戏回放数据中学习 StarCraft 中的宏观管理决策，并在开源的 StarCraft 机器人 UAlbertaBot 中实现，取得了比游戏内置 bot 更好的表现。该方法能够表达各种不同的策略，并且可以进一步通过深度强化学习提高表现，最终实现不再依赖硬编码策略的强大 StarCraft bot。

Jul, 2017

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024