无搜索的国际大师级棋局

Feb, 2024

Grandmaster-Level Chess Without Search

Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang...

TL;DR研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习，利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约 150 亿个数据点，并达到了 2895 的 Lichess 快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了 AlphaZero 的策略和值网络（没有 MCTS）以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Abstract

The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datase

machine learning large-scale attention-based architectures datasets supervised learning chess

发现论文，激发创造

Chess Transformer：利用生成式语言模型掌握下棋

本研究证明了自然语言变换器可以支持更通用的战略建模，特别是对于文本存档游戏。我们的 Chess Transformer 在 2.8 百万张国际象棋棋局的训练中能够生成合理的策略和经典开局的局面，加入了与人交互的方法可以正确过滤非法移动并挑战变压器的棋局。未来的研究将构建在这个变换器的基础上，在其他具有从简单但富有表现力的玩家注释中捕捉底层复杂规则语法的策略游戏中特别发挥作用。

Aug, 2020

使用桌游进行尺度律研究

本文通过使用 AlphaZero 和 Hex 的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Apr, 2021

DeepChess: 棋类自动学习的端到端深度神经网络

本文介绍了一种基于深度神经网络的端到端学习方法，通过无监督预训练和有监督训练来训练神经网络，实现了无先验知识的自动下棋策略，结果表明 DeepChess 能够和经过多年人工调整的机器下棋程序相媲美，是第一个能够实现国际象棋特级大师水平的端到端机器学习方法。

Nov, 2017

利用语言模型和变形金刚学习国际象棋

本研究使用基于文本的记号表示来实现棋盘和其位置的表述，随后应用 BERT 模型在 Nim 和国际象棋游戏中实现无监督学习和玩家行为检测。研究结果表明，该模型已经实践证明在 A 类评级水平中已经可以与 Stockfish 进行胜负对抗了。

Sep, 2022

将超级智能与人类行为相一致：以象棋为模型系统

研究人员基于人类下棋决策的详细数据，通过 AlphaZero 构建了一种定制化的人工智能引擎 Maia，能够更准确地预测人类棋手的下棋。这项研究表明，重点是建立精确的人类决策模型，安装有人类协作的人工智能系统具有很大的潜力。

Jun, 2020

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估 Transformer 语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的 Transformer 语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

基于信息的深度学习代理解释方法 —— 在大型开源国际象棋模型上的应用

通过使用大规模开源的国际象棋模型重新实现 McGrath 等人（2022）中应用于 AlphaZero 的概念检测方法，并获得与 AlphaZero 相似的结果，本研究还提出了一种新颖的可解释人工智能（XAI）方法，该方法能够全面、独立地突出显示被解释模型使用的信息，该方法生成适用于国际象棋等具有离散输入空间特征的领域的可视化解释，通过应用于标准的 8x8 国际象棋验证了该方法的可行性。

Sep, 2023

国际象棋对弈语言模型中的紧急世界模型与潜变量估计

迄今为止，语言模型的出色表现引发了对其性能来源的争议，是仅仅学习句法模式和表面统计的结果，还是从文本中提取了语义和世界模型？本研究在国际象棋这一更复杂的领域中扩展了之前的工作，通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示，发现该模型具有棋盘状态的内部表示，同时对玩家技能等潜在变量进行估计，提升了模型的胜率达到 2.6 倍。

Mar, 2024

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017