灵活的游戏智能体：使用 AlphaViT 适应多种游戏和棋盘尺寸

Aug, 2024

灵活的游戏智能体：使用 AlphaViT 适应多种游戏和棋盘尺寸

Flexible game-playing AI with AlphaViT: adapting to multiple games and board sizes

Kazuhisa Fujita

TL;DR本研究解决了AlphaZero框架在固定棋盘尺寸上的局限，提出了基于视觉变换器的灵活游戏智能体AlphaViT、AlphaViD和AlphaVDA。通过实验，这些智能体在多种游戏环境中表现优越，尤其是AlphaViD在适应不同动作空间和棋盘尺寸方面展现出更强的能力，展示了变换器结构在游戏AI开发中的潜力。

Abstract

This paper presents novel Game AI agents based on the AlphaZero framework, enhanced with Vision Transformers (ViT): AlphaViT, AlphaViD, an

发现论文，激发创造

启发式搜索通过测试时间获得更快的训练——AlphaZero启发式游戏学习

本文提出了一种AlphaZero启发的MCTS包装器，将其与时间差异学习智能体相结合，在不需要GPU或TPU等高性能计算资源的情况下，在多个复杂的游戏中成功打败强劲对手，取得了显著优势。

Apr, 2022

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

多游戏决策转换器

本研究探讨了采用transformer-based model方法训练的多用途强化学习代理程序在Atari游戏中的表现，发现使用Multi-Game Decision Transformer模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022

AlphaZero-like 代理是否具有抗对抗扰动的鲁棒性？

本研究针对神经网络棋类人工智能的对手状态攻击进行了探究，该方法可扩展至其他棋盘游戏；实验结果表明，加入1-2个无意义棋子即可使AlphaGo Zero等神经网络棋类AI产生错误决策。

Nov, 2022

表征很重要：国际象棋对视觉转换器提出了挑战

通过简单调整输入格式和价值损失函数，超越 AlphaZero 许多的方式，来在最古老的 AI 基准测试领域之一的象棋游戏中赢得胜利，仅使用视觉 Transformer，并结合 MobileNet 和 NextViT 提高 ViTs 的效率仍然无法胜任此任务。

Apr, 2023

LuckyMera：构建混合NetHack智能体的模块化人工智能框架

本文介绍了LuckyMera，这是一个基于NetHack的灵活的、模块化的、可扩展的和可配置的AI框架，旨在简化和加速能够成功玩游戏的AI代理的开发，并提供用于设计游戏策略的高级接口。

Jul, 2023

AlphaZero五子棋

AlphaZero算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

MiniZero: 两种强化学习算法AlphaZero和MuZero在围棋、奥赛罗和雅达利游戏上的比较分析

该论文介绍了MiniZero，一种支持AlphaZero、MuZero、Gumbel AlphaZero和Gumbel MuZero四种先进算法的零知识学习框架，并通过系统评估这些算法在两个棋盘游戏和57个Atari游戏中的性能表现，发现在两个棋盘游戏中，使用更多模拟通常会产生更高的性能，但AlphaZero和MuZero的选择可能会根据游戏的特性而有所不同，而在Atari游戏中，MuZero和Gumbel MuZero都值得考虑，因为每个游戏都具有独特的特点，不同的算法和模拟会产生不同的结果，此外，论文还介绍了一种称为渐进式模拟的方法，在训练过程中逐渐增加模拟预算，以更有效地分配计算资源，实证结果表明，渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型，该论文为零知识学习算法的未来研究提供了基准，帮助研究人员进行算法选择和与这些零知识学习基准的比较。

Oct, 2023

通用游戏求解的快速且无需专业知识的深度学习

我们开发了一种将AlphaZero模型适应于通用游戏对战（GGP）的方法，该方法侧重于更快的模型生成并且需要从游戏规则中提取的知识更少。数据集生成使用MCTS进行游戏对战，只使用值网络，并且使用注意力层替换卷积层。我们在Regular Boardgames GGP系统中实施了这种方法，并展示了我们可以高效地构建优于UCT基准的模型。

Dec, 2023

AlphaZeroES：直接最大化得分胜过规划损失最小化

在单智能体环境中，通过直接最大化回合得分而不是最小化规划损失，可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下，优于AlphaZero。

Jun, 2024