Feb, 2024

无搜索的国际大师级棋局

TL;DR研究表明,机器学习中的重要突破主要归功于规模,特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习,利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释,得到了约 150 亿个数据点,并达到了 2895 的 Lichess 快棋等级分,成功解决了一系列有难度的国际象棋难题,而无需特定领域的优化或显式搜索算法。研究还表明,我们的模型在性能上超过了 AlphaZero 的策略和值网络(没有 MCTS)以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明,只有在足够规模的情况下,才能展现强大的国际象棋性能。为了验证我们的结果,我们进行了一系列关于设计选择和超参数的消融实验。