在线微调的游戏求解
AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序,并尝试将其应用于解决搜索问题,本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则,并提出了适用于该类问题的一种 Monte Carlo tree search 方法。
Jul, 2022
本文提出了一种基于 RZ 的搜索算法 (RZS),并使用 FTL 方法修改 AlphaZero 算法来更快地解决 L&D Go 问题,成功解决了一本专业 L&D 书中的 68 个问题,而之前的程序仅解决了 11 个问题。同时,研究者们还讨论了该方法的普适性,指出 RZS 算法适用于解决许多其他棋盘游戏中的目标实现问题。
Dec, 2021
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
采用 AlphaZero 算法中的深度神经网络和引导树搜索,结合深度前瞻技术, 实现了量子优化过程的全新探索方式。AlphaZero 算法在三类控制问题上经过应用和基准测试, 能够显著提高优质解集的质量和数量,并能够自主学习预期外的隐藏结构和全局对称性。
Jul, 2019
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
此篇论文探讨了在比分规则下,AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题,并给出了一个理论解释,阐述了在输赢状态下出于不同考虑的策略选择。
Jan, 2022
我们提出了一种新的自动定理证明方法,其中使用 AlphaZero 风格智能体自我训练来改进表达为非确定性程序的通用高级专家策略,同时具有类似的教师代理机自我训练来生成适当相关性和难度的任务以供学习者解决,利用最小领域知识来解决合成训练数据不可用或难以合成的问题,具体举例来说,我们考虑了用于命令程序的循环不变量合成,并使用神经网络来改进教师和求解策略。
May, 2022