AlphaZero 中的有针对性搜索控制以实现有效策略改进
AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序,并尝试将其应用于解决搜索问题,本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则,并提出了适用于该类问题的一种 Monte Carlo tree search 方法。
Jul, 2022
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
本文提出了 MuZero 算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中,都表现出了与 AlphaZero 算法相当的性能,而无需知道游戏规则。
Nov, 2019
本研究提出 ELF OpenGo,这是第一个开源的围棋 AI,其重新实现了 AlphaZero 算法并以完美的战绩(20:0)与国际顶级专业人士相比表明了超人类性能。我们对 ELF OpenGo 进行了广泛的消融研究,并在模型训练和游戏推理过程中分析出许多有趣的现象。
Feb, 2019
采用 AlphaZero 算法中的深度神经网络和引导树搜索,结合深度前瞻技术, 实现了量子优化过程的全新探索方式。AlphaZero 算法在三类控制问题上经过应用和基准测试, 能够显著提高优质解集的质量和数量,并能够自主学习预期外的隐藏结构和全局对称性。
Jul, 2019
该论文介绍了 MiniZero,一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架,并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现,发现在两个棋盘游戏中,使用更多模拟通常会产生更高的性能,但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同,而在 Atari 游戏中,MuZero 和 Gumbel MuZero 都值得考虑,因为每个游戏都具有独特的特点,不同的算法和模拟会产生不同的结果,此外,论文还介绍了一种称为渐进式模拟的方法,在训练过程中逐渐增加模拟预算,以更有效地分配计算资源,实证结果表明,渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型,该论文为零知识学习算法的未来研究提供了基准,帮助研究人员进行算法选择和与这些零知识学习基准的比较。
Oct, 2023
本研究针对神经网络棋类人工智能的对手状态攻击进行了探究,该方法可扩展至其他棋盘游戏;实验结果表明,加入 1-2 个无意义棋子即可使 AlphaGo Zero 等神经网络棋类 AI 产生错误决策。
Nov, 2022