从数据中学习游戏的潜在规则：一个棋类故事

Oct, 2024

从数据中学习游戏的潜在规则：一个棋类故事

Learning the Latent Rules of a Game from Data: A Chess Story

Ben Fauber

TL;DR本研究解决了小型预训练生成语言模型无法有效学习复杂游戏规则的问题。通过在棋类数据上进行指令微调，研究显示28M和125M参数的小型语言模型能够学习国际象棋的规则并提出合法走法，显著减少模型的幻觉现象，提高了准确性。这项工作展示了小型模型在特定领域数据下的潜在能力，推动了游戏智能的研究进展。

Abstract

We demonstrate that small pretrained foundational generative Language Models with millions of parameters can learn the latent rules of a process from data associated with the process. Inspired by Stefan Zweig's novella "Schachnovelle," also known as "The Royal Game" in English, we show

发现论文，激发创造

Chess Transformer：利用生成式语言模型掌握下棋

本研究证明了自然语言变换器可以支持更通用的战略建模，特别是对于文本存档游戏。我们的 Chess Transformer 在 2.8 百万张国际象棋棋局的训练中能够生成合理的策略和经典开局的局面，加入了与人交互的方法可以正确过滤非法移动并挑战变压器的棋局。未来的研究将构建在这个变换器的基础上，在其他具有从简单但富有表现力的玩家注释中捕捉底层复杂规则语法的策略游戏中特别发挥作用。

Aug, 2020

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

利用语言模型和变形金刚学习国际象棋

本研究使用基于文本的记号表示来实现棋盘和其位置的表述，随后应用BERT模型在Nim和国际象棋游戏中实现无监督学习和玩家行为检测。研究结果表明，该模型已经实践证明在A类评级水平中已经可以与Stockfish进行胜负对抗了。

Sep, 2022

ChessGPT：连接策略学习和语言建模

在本论文中，我们提出了一个名为ChessGPT的神经网络模型，该模型整合了供强化学习所需的历史政策数据和自然语言形式的分析洞察力，从而使智能体能够更好地解决决策问题和棋类游戏。

Jun, 2023

大型语言模型在国际象棋棋盘上的应用：对ChatGPT的形式语言理解和复杂推理能力的研究

这篇论文通过探究ChatGPT（OpenAI的先进语言模型）处理复杂推理任务（以国际象棋为例）的表现，利用评估棋盘理解、国际象棋规则遵守和战略决策能力的健全指标来识别其注意机制和自我调节能力的局限性，以及在自然语言体量较大或棋盘状态理解较明晰时决策力的增强；这些研究结果对于突破自然语言处理的局限，为展示类人认知能力的模型提供了宝贵的信息。

Aug, 2023

学用教科书学棋（LEAP）：基于情感分析评估棋局的语料库

该研究使用棋谱书籍作为新的知识来源，开发了一个包含结构化和非结构化数据的新型异构数据集LEAP corpus，用于实现机器学习下棋，并使用基于Transformer的模型进行情感分析评估，结果表明该模型在评估棋步时取得了较高的性能。最后，通过合成LEAP corpus，创造了一个较大的数据集，以解决棋类领域中有限的文本资源问题。

Oct, 2023

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有2.7亿个参数的transformer模型进行监督学习，利用由强大的Stockfish 16引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约150亿个数据点，并达到了2895的Lichess快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了AlphaZero的策略和值网络（没有MCTS）以及GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

国际象棋对弈语言模型中的紧急世界模型与潜变量估计

迄今为止，语言模型的出色表现引发了对其性能来源的争议，是仅仅学习句法模式和表面统计的结果，还是从文本中提取了语义和世界模型？本研究在国际象棋这一更复杂的领域中扩展了之前的工作，通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示，发现该模型具有棋盘状态的内部表示，同时对玩家技能等潜在变量进行估计，提升了模型的胜率达到2.6倍。

Mar, 2024

GAVEL：通过进化和语言模型生成游戏

使用大型语言模型和进化计算，基于Ludii游戏描述语言，本研究旨在自动生成新颖有趣的游戏，并在较为广阔的规则空间中展现其能力与优势。

Jul, 2024