在线微调的游戏求解

Nov, 2023

Game Solving with Online Fine-Tuning

Ti-Rong Wu, Hung Guei, Ting Han Wei, Chung-Chin Shih, Jui-Te Chin...

TL;DR应用在线微调的方法解决游戏问题，在计算时间上相比基准方法仅使用了 23.54%，表明节约的规模与问题的大小成正比。

Abstract

game solving is a similar, yet more difficult task than mastering a game. Solving a game typically means to find the game-theoretic value (outcome given optimal play), and optionally a full strategy to follow in order to achieve that outcome. The →

game solving alphazero online fine-tuning heuristics computation time

发现论文，激发创造

解决搜索问题的 AlphaZero 启发方法

AlphaZero 和 MuZero 是使用机器学习技术进行超级人类棋类游戏表现的程序，并尝试将其应用于解决搜索问题，本文描述了在搜索问题中如何使用 AlphaZero 技术进行表示以及求解规则，并提出了适用于该类问题的一种 Monte Carlo tree search 方法。

Jul, 2022

一种解决棋盘游戏目标实现问题的新方法

本文提出了一种基于 RZ 的搜索算法 (RZS)，并使用 FTL 方法修改 AlphaZero 算法来更快地解决 L&D Go 问题，成功解决了一本专业 L&D 书中的 68 个问题，而之前的程序仅解决了 11 个问题。同时，研究者们还讨论了该方法的普适性，指出 RZS 算法适用于解决许多其他棋盘游戏中的目标实现问题。

Dec, 2021

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

AlphaZero 五子棋

AlphaZero 算法通过将深度学习与蒙特卡洛树搜索相结合，在象棋、围棋和五子棋等棋盘游戏中取得了巨大的成功。

Sep, 2023

AlphaZero 深度探索下的量子动力学全局优化

采用 AlphaZero 算法中的深度神经网络和引导树搜索，结合深度前瞻技术，实现了量子优化过程的全新探索方式。AlphaZero 算法在三类控制问题上经过应用和基准测试，能够显著提高优质解集的质量和数量，并能够自主学习预期外的隐藏结构和全局对称性。

Jul, 2019

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

基于分数的游戏中的分数与胜率：强化学习采用哪种奖励？

此篇论文探讨了在比分规则下，AlphaZero 算法在处理完美信息的双人零和游戏时可能会有积分亚优的问题，并给出了一个理论解释，阐述了在输赢状态下出于不同考虑的策略选择。

Jan, 2022

AlphaGo 中的贝叶斯优化

通过贝叶斯优化，不断调节 AlphaGo 的众多超参数，从而在自我博弈过程中显著提高了其胜率，为 Go 爱好者提供了一些启示和灵感。

Dec, 2018

通过学习细化搜索策略来学习查找证明和定理 - 循环不变式合成的案例

我们提出了一种新的自动定理证明方法，其中使用 AlphaZero 风格智能体自我训练来改进表达为非确定性程序的通用高级专家策略，同时具有类似的教师代理机自我训练来生成适当相关性和难度的任务以供学习者解决，利用最小领域知识来解决合成训练数据不可用或难以合成的问题，具体举例来说，我们考虑了用于命令程序的循环不变量合成，并使用神经网络来改进教师和求解策略。

May, 2022

加速围棋自我博弈学习

通过改进 AlphaZero 的过程和架构，我们在 Go 中极大地加速了自我博弈学习，与类似方法相比，计算量减少了 50 倍。

Feb, 2019