5*5 多人围棋的深度强化学习

May, 2024

Deep Reinforcement Learning for 5*5 Multiplayer Go

Brahim Driss, Jérôme Arjonilla, Hui Wang, Abdallah Saffidine, Tristan Cazenave

TL;DR使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

Abstract

In recent years, much progress has been made in computer go and most of the results have been obtained thanks to search algorithms (Monte Carlo Tree Search) and →

computer go search algorithms deep reinforcement learning alphazero descent algorithms

发现论文，激发创造

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

视频游戏中深度强化学习综述

本文综述了深度强化学习 (DRL) 的进展，包括基于价值、基于策略和基于模型的算法，并对其在游戏 AI 领域内的应用和挑战进行了讨论和总结。

Dec, 2019

分布式深度强化学习：调查与多人多代理学习工具箱

本文综述分布式深度强化学习的研究进展，对比不同方法、研究关键因素，回顾工具箱的发展，并且基于综述开发出多人、多智能体分布式深度强化学习工具箱，并在复杂游戏环境中进行验证。最后指出未来挑战和发展方向。

Dec, 2022

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

使用深度强化学习掌握 MOBA 游戏中的复杂控制

本文提出了一种深度强化学习框架，从系统和算法两个角度来解决 Multi-player Online Battle Arena（MOBA）1v1 游戏中复杂动作控制的问题，通过包括控制依赖解耦、动作遮罩、目标注意力和双剪辑 PPO 等多种新颖策略，训练出可以在 MOBA 游戏王者荣耀中打败顶级人类选手的 AI 代理 Tencent Solo。

Dec, 2019

基于深度强化学习的战略对话管理

本研究成功应用深度强化学习 (DRL) 训练具备谈判能力的智能策略代理程序，实验表明该程序与由人工设计的规则、随机等算法相比，获胜率提高至 53%。

Nov, 2015

现代深度强化学习算法

综述最新深度加强学习算法，重点关注其理论论证、实际限制和观察到的经验特性。

Jun, 2019

基于组合的 Q 学习算法在斗地主中的应用

本文研究了一类特殊的亚洲纸牌游戏斗地主，针对其巨大的行动空间提出了一种名为组合 Q 学习的新方法，利用两阶段网络和池化操作提取基本行动之间的关系，结果表明比传统的 Q 学习和 A3C 等算法更优，并使用对抗训练方法仅凭游戏规则训练出了可与人类媲美的代理。

Jan, 2019

DanZero+: 强化学习在贯蛋游戏中的统治力

利用人工智能在复杂的卡牌游戏关单中开发了一个名为 DanZero 的 AI 程序，通过强化学习技术和分布式训练框架，以及采用预训练模型来改善性能，DanZero 表现出卓越的性能。

Dec, 2023

基于深度强化学习和搜索算法的不完全信息博弈组合

本文介绍了 ReBeL，它是一种通用的强化学习和搜索框架，并在任何两人零和博弈中证明收敛于纳什平衡。同时，使用比任何先前的扑克 AI 更少的领域知识，ReBeL 在无限制德州扑克中实现了超人类性能。

Jul, 2020