通用游戏求解的快速且无需专业知识的深度学习

AAAIDec, 2023

通用游戏求解的快速且无需专业知识的深度学习

Fast and Knowledge-Free Deep Learning for General Game Playing (Student Abstract)

Michał Maras, Michał Kępa, Jakub Kowalski, Marek Szykuła

TL;DR我们开发了一种将 AlphaZero 模型适应于通用游戏对战（GGP）的方法，该方法侧重于更快的模型生成并且需要从游戏规则中提取的知识更少。数据集生成使用 MCTS 进行游戏对战，只使用值网络，并且使用注意力层替换卷积层。我们在 Regular Boardgames GGP 系统中实施了这种方法，并展示了我们可以高效地构建优于 UCT 基准的模型。

Abstract

We develop a method of adapting the alphazero model to general game playing (GGP) that focuses on faster model generation and requires less knowledge to be extracted from the game rules. The →

alphazero general game playing dataset generation mcts playing regular boardgames ggp system

发现论文，激发创造

启发式搜索通过测试时间获得更快的训练 ——AlphaZero 启发式游戏学习

本文提出了一种 AlphaZero 启发的 MCTS 包装器，将其与时间差异学习智能体相结合，在不需要 GPU 或 TPU 等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

加速围棋自我博弈学习

通过改进 AlphaZero 的过程和架构，我们在 Go 中极大地加速了自我博弈学习，与类似方法相比，计算量减少了 50 倍。

Feb, 2019

基于信息的深度学习代理解释方法 —— 在大型开源国际象棋模型上的应用

通过使用大规模开源的国际象棋模型重新实现 McGrath 等人（2022）中应用于 AlphaZero 的概念检测方法，并获得与 AlphaZero 相似的结果，本研究还提出了一种新颖的可解释人工智能（XAI）方法，该方法能够全面、独立地突出显示被解释模型使用的信息，该方法生成适用于国际象棋等具有离散输入空间特征的领域的可视化解释，通过应用于标准的 8x8 国际象棋验证了该方法的可行性。

Sep, 2023

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

混合极小化极大搜索和游戏难度调整的一般游戏问题解决方法

提出了一种通用方法来实现具有不同难度级别的零和游戏的人工智能对手，同时结合了 Minimax-MCTS 混合算法，该方法在移动应用程序 LoBoGames 中进行了测试，并证明了这种混合算法和新的难度调整系统在将来的工作中具有潜力。

Oct, 2023

通用游戏的战略特征

本文介绍了一项正在进行的研究项目，旨在实现大量数字版棋盘游戏的自动化自我学习和评估，并描述了我们采取的方法来确定相关特征，以偏置在任意几何形状上玩的任意游戏的 MCTS 模拟。我们的方法的好处包括高效实现，潜在的将所学知识转移到新的场景中，以及潜在的解释以人类可理解的术语嵌入特征中的战略知识。

Jan, 2021

AlphaZero 五子棋

AlphaZero 算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了 MuZero 算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中，都表现出了与 AlphaZero 算法相当的性能，而无需知道游戏规则。

Nov, 2019

归纳式通用游戏对战

介绍了一种技术，可以从 General Game Playing 生成规则，建立 Inductive General Game Playing 难以被现有的归纳逻辑规划方法处理，并给出了 IGGP 数据集和实验结果。

Jun, 2019

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022