国际象棋对弈语言模型中的紧急世界模型与潜变量估计

Mar, 2024

国际象棋对弈语言模型中的紧急世界模型与潜变量估计

Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models

Adam Karvonen

TL;DR迄今为止，语言模型的出色表现引发了对其性能来源的争议，是仅仅学习句法模式和表面统计的结果，还是从文本中提取了语义和世界模型？本研究在国际象棋这一更复杂的领域中扩展了之前的工作，通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示，发现该模型具有棋盘状态的内部表示，同时对玩家技能等潜在变量进行估计，提升了模型的胜率达到 2.6 倍。

Abstract

language models have shown unprecedented capabilities, sparking debate over the source of their performance. Is it merely the outcome of learning syntactic patterns and surface level statistics, or do they extrac

language models performance semantic representation internal representations latent variables

发现论文，激发创造

应用序列模型探讨在合成任务训练下的紧急世界表达

该研究探讨了语言模型的内部表示和超出表面统计信息的能力，并使用 Othello 棋盘游戏作为示例，发现神经网络对于棋盘状态具有一种非线性内部表示，可以用于解释和控制其输出。

Oct, 2022

利用语言模型和变形金刚学习国际象棋

本研究使用基于文本的记号表示来实现棋盘和其位置的表述，随后应用 BERT 模型在 Nim 和国际象棋游戏中实现无监督学习和玩家行为检测。研究结果表明，该模型已经实践证明在 A 类评级水平中已经可以与 Stockfish 进行胜负对抗了。

Sep, 2022

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估 Transformer 语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的 Transformer 语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

简化变压器中的线性潜模型：奥赛罗 GPT 的案例研究

这篇论文通过细致的研究一个经过训练的简单变压器模型在奥赛罗游戏中的应用，扩展先前的研究以提升对奥赛罗 - GPT 应用中新兴世界模型的理解，揭示了奥赛罗 - GPT 所包含的对立棋子的线性表达，在决策过程中起着因果驱动作用，并进一步阐述了线性世界表达和因果决策之间的相互作用，以及它们对层深和模型复杂度的依赖关系。我们已将代码公开。

Oct, 2023

无监督序列模型中的世界模型中的线性表现

序列模型对其决策过程是如何表示的？我们的研究表明，将模型的内部状态线性化表示为 “我的颜色” 与 “对手的颜色” 可以通过简单的向量运算来控制模型的行为，从而实现对内部表示的精确理解。线性表示为解决序列模型的解释性问题提供了重要进展，并通过进一步探索世界模型的计算过程来加以证明。

Sep, 2023

Chess Transformer：利用生成式语言模型掌握下棋

本研究证明了自然语言变换器可以支持更通用的战略建模，特别是对于文本存档游戏。我们的 Chess Transformer 在 2.8 百万张国际象棋棋局的训练中能够生成合理的策略和经典开局的局面，加入了与人交互的方法可以正确过滤非法移动并挑战变压器的棋局。未来的研究将构建在这个变换器的基础上，在其他具有从简单但富有表现力的玩家注释中捕捉底层复杂规则语法的策略游戏中特别发挥作用。

Aug, 2020

大型语言模型在国际象棋棋盘上的应用：对 ChatGPT 的形式语言理解和复杂推理能力的研究

这篇论文通过探究 ChatGPT（OpenAI 的先进语言模型）处理复杂推理任务（以国际象棋为例）的表现，利用评估棋盘理解、国际象棋规则遵守和战略决策能力的健全指标来识别其注意机制和自我调节能力的局限性，以及在自然语言体量较大或棋盘状态理解较明晰时决策力的增强；这些研究结果对于突破自然语言处理的局限，为展示类人认知能力的模型提供了宝贵的信息。

Aug, 2023

ChessGPT：连接策略学习和语言建模

在本论文中，我们提出了一个名为 ChessGPT 的神经网络模型，该模型整合了供强化学习所需的历史政策数据和自然语言形式的分析洞察力，从而使智能体能够更好地解决决策问题和棋类游戏。

Jun, 2023

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习，利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约 150 亿个数据点，并达到了 2895 的 Lichess 快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了 AlphaZero 的策略和值网络（没有 MCTS）以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

利用世界模型进行紧急通信

引入了一种 Language World Models 的生成式模型，用于预测未来观测的潜在代码，提高了对语言信息的理解能力，进而提高了 2D 栅格世界的语音导航任务的任务成功率。

Feb, 2020