大规模深度强化学习下的 Dota 2

Dec, 2019

Dota 2 with Large Scale Deep Reinforcement Learning

OpenAI, Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung...

TL;DR2019 年 4 月 13 日，OpenAI Five 成为首个击败电子竞技游戏世界冠军的 AI 系统，通过对分布式训练和强化学习技术的不断完善，OpenAI Five 进行了 10 个月的自我训练，并证明了自我对战强化学习技术在困难任务上能够实现超人类表现。

Abstract

On April 13th, 2019, openai five became the first AI system to defeat the world champions at an esports game. The game of dota 2 presents

openai five esports dota 2 reinforcement learning self-play

发现论文，激发创造

使用深度强化学习玩完整的 MOBA 游戏

提出了一种 MOBA 游戏 AI 学习范式，采用深度强化学习及新型学习技术，可训练玩家池多的游戏并解决了可扩展性问题，测试结果表明该 AI 在王者荣耀等游戏中已能击败顶尖电竞选手。

Nov, 2020

使用深度强化学习击败世界级的超级 Smash Bros

研究了在多人游戏环境中采用强化学习 (RL) 和深度学习的方法，成功训练了一个超越人类专业玩家的自适应智能体，成果在多人视频游戏环境中具有里程碑意义。

Feb, 2017

基于人群的深度强化学习在第一人称多人游戏中达到人类水平的表现

本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体，这些智能体仅使用 Q3A 视频游戏的像素和游戏得分作为输入，即使在富有挑战性的多智能体环境中互相协作和竞争，这些智能体也能够达到类人水平，并展现出人类般的行为表现。

Jul, 2018

使用深度强化学习掌握 MOBA 游戏中的复杂控制

本文提出了一种深度强化学习框架，从系统和算法两个角度来解决 Multi-player Online Battle Arena（MOBA）1v1 游戏中复杂动作控制的问题，通过包括控制依赖解耦、动作遮罩、目标注意力和双剪辑 PPO 等多种新颖策略，训练出可以在 MOBA 游戏王者荣耀中打败顶级人类选手的 AI 代理 Tencent Solo。

Dec, 2019

利用深度强化学习进行星际争霸宏观动作选择

本研究采用基于深度强化学习的方法构建了一款名为 LastOrder 的机器人，旨在提高 StarCraft 游戏中宏观行动的选择。实验表明，LastOrder 在 AIIDE'17 StarCraft AI 比赛中排名前列，证明了该方法的有效性。

Dec, 2018

人类速度：带有行动延迟的深度强化学习

该论文研究解决游戏人工智能的反应延迟问题，通过给智能体一个神经预测模型滞后，展示了超级斗地主 Bros. Melee 等游戏中对抗专业玩家的有效性。

Oct, 2018

一个在 microRTS 中夺冠的深度强化学习智能体

RAISocketAI 是第一个赢得 IEEE 微型 RTS 比赛的深度强化学习代理，其具有竞争力的表现成为未来微型 RTS 比赛的基准和深度强化学习研究的起点。通过迭代微调基本策略和传递学习到特定地图来提高 RAISocketAI 的表现，并将该策略用于经济训练未来的深度强化学习代理。使用行为克隆进行模仿学习并通过深度强化学习进行模型微调，已被证明是一种高效的引导模型具有竞争性行为的方法。

Feb, 2024

TStarBots: 在 StarCraft II 全游戏中击败作弊级内置 AI

本文中，我们提出了两种基于深度强化学习框架和分层动作空间的 AI 智能体 TStarBot1 和 TStarBot2，并评估它们在星际争霸 II 全场游戏中的表现，成功地战胜了从 1 至 10 级内置 AI 对手，标志着深度强化学习在星际争霸 II AI 研究领域取得了重要进展。

Sep, 2018

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024

2018 NeurIPS 人工智能驾驶奥林匹克

AI Driving Olympics 竞赛提供了一个基于机器学习和人工智能的行驶机器人控制简单且清晰规定的测试环境，涉及从单车道跟踪到车队管理等一系列任务，此竞赛的结果凸显了机器人领域缺乏更好的基准测试和更好的模拟与现实之间衔接方式的需求。

Mar, 2019