公正博弈:强化学习的挑战
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
本文提出了 MuZero 算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中,都表现出了与 AlphaZero 算法相当的性能,而无需知道游戏规则。
Nov, 2019
AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序,并尝试将其应用于解决搜索问题,本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则,并提出了适用于该类问题的一种 Monte Carlo tree search 方法。
Jul, 2022
该论文介绍了 MiniZero,一种支持 AlphaZero、MuZero、Gumbel AlphaZero 和 Gumbel MuZero 四种先进算法的零知识学习框架,并通过系统评估这些算法在两个棋盘游戏和 57 个 Atari 游戏中的性能表现,发现在两个棋盘游戏中,使用更多模拟通常会产生更高的性能,但 AlphaZero 和 MuZero 的选择可能会根据游戏的特性而有所不同,而在 Atari 游戏中,MuZero 和 Gumbel MuZero 都值得考虑,因为每个游戏都具有独特的特点,不同的算法和模拟会产生不同的结果,此外,论文还介绍了一种称为渐进式模拟的方法,在训练过程中逐渐增加模拟预算,以更有效地分配计算资源,实证结果表明,渐进式模拟在两个棋盘游戏中取得了显著优异的性能。通过提供框架和训练好的模型,该论文为零知识学习算法的未来研究提供了基准,帮助研究人员进行算法选择和与这些零知识学习基准的比较。
Oct, 2023
该研究论文介绍了如何将 Alpha Zero 的算法模型用于连续动作域的强化学习问题,并给出了针对摆钟摆问题的初步实验结果,为在连续动作域下应用 Alpha Zero 算法模型提供了理论基础和有效性证明。
May, 2018
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
使用自然语言处理中的两种评估技术,探究了 AlphaZero 在 Hex 游戏中的内部表示,研究发现 MCTS 在神经网络学习之前就发现了相关概念,而短期终局规划概念对应最终层,长期计划对应中间层。
Nov, 2022