灵活的游戏智能体:使用 AlphaViT 适应多种游戏和棋盘尺寸
本文提出了一种AlphaZero启发的MCTS包装器,将其与时间差异学习智能体相结合,在不需要GPU或TPU等高性能计算资源的情况下,在多个复杂的游戏中成功打败强劲对手,取得了显著优势。
Apr, 2022
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
本研究探讨了采用transformer-based model方法训练的多用途强化学习代理程序在Atari游戏中的表现,发现使用Multi-Game Decision Transformer模型的性能和可伸缩性最佳,并提供预训练模型和代码以鼓励该方向的进一步研究。
May, 2022
本研究针对神经网络棋类人工智能的对手状态攻击进行了探究,该方法可扩展至其他棋盘游戏;实验结果表明,加入1-2个无意义棋子即可使AlphaGo Zero等神经网络棋类AI产生错误决策。
Nov, 2022
通过简单调整输入格式和价值损失函数,超越 AlphaZero 许多的方式,来在最古老的 AI 基准测试领域之一的象棋游戏中赢得胜利,仅使用视觉 Transformer,并结合 MobileNet 和 NextViT 提高 ViTs 的效率仍然无法胜任此任务。
Apr, 2023
本文介绍了LuckyMera,这是一个基于NetHack的灵活的、模块化的、可扩展的和可配置的AI框架,旨在简化和加速能够成功玩游戏的AI代理的开发,并提供用于设计游戏策略的高级接口。
Jul, 2023
该论文介绍了MiniZero,一种支持AlphaZero、MuZero、Gumbel AlphaZero和Gumbel MuZero四种先进算法的零知识学习框架,并通过系统评估这些算法在两个棋盘游戏和57个Atari游戏中的性能表现,发现在两个棋盘游戏中,使用更多模拟通常会产生更高的性能,但AlphaZero和MuZero的选择可能会根据游戏的特性而有所不同,而在Atari游戏中,MuZero和Gumbel MuZero都值得考虑,因为每个游戏都具有独特的特点,不同的算法和模拟会产生不同的结果,此外,论文还介绍了一种称为渐进式模拟的方法,在训练过程中逐渐增加模拟预算,以更有效地分配计算资源,实证结果表明,渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型,该论文为零知识学习算法的未来研究提供了基准,帮助研究人员进行算法选择和与这些零知识学习基准的比较。
Oct, 2023
我们开发了一种将AlphaZero模型适应于通用游戏对战(GGP)的方法,该方法侧重于更快的模型生成并且需要从游戏规则中提取的知识更少。数据集生成使用MCTS进行游戏对战,只使用值网络,并且使用注意力层替换卷积层。我们在Regular Boardgames GGP系统中实施了这种方法,并展示了我们可以高效地构建优于UCT基准的模型。
Dec, 2023
在单智能体环境中,通过直接最大化回合得分而不是最小化规划损失,可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下,优于AlphaZero。
Jun, 2024