基于模型预测控制、强化学习与回滚的优越计算机国际象棋

Sep, 2024

基于模型预测控制、强化学习与回滚的优越计算机国际象棋

Superior Computer Chess with Model Predictive Control, Reinforcement Learning, and Rollout

Atharva Gundawar, Yuchao Li, Dimitri Bertsekas

TL;DR本文解决了计算机国际象棋中的移动选择问题，通过模型预测控制、回滚和强化学习的方法引入了一种新的架构。研究结果表明，该架构显著提升了位置评估引擎的性能，为各种水平的国际象棋引擎增加了一层智能。

Abstract

In this paper we apply model predictive control (MPC), rollout, and reinforcement learning (RL) methodologies to computer chess. We introduce a new architecture for →

发现论文，激发创造

RLCard:纸牌游戏中强化学习的工具包

RLCard是一个用于扑克类游戏强化学习研究的开源工具包，旨在将强化学习和非完全信息游戏联系起来，推动在多个代理、大状态和动作空间以及稀疏奖励等领域的强化学习研究。

Oct, 2019

通过学习模型规划，掌握雅达利、围棋、国际象棋和将棋

本文提出了MuZero算法，它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现，在57款不同的Atari游戏上以及对Go、国际象棋和象棋等游戏的测试中，都表现出了与AlphaZero算法相当的性能，而无需知道游戏规则。

Nov, 2019

将超级智能与人类行为相一致：以象棋为模型系统

研究人员基于人类下棋决策的详细数据，通过AlphaZero构建了一种定制化的人工智能引擎Maia，能够更准确地预测人类棋手的下棋。这项研究表明，重点是建立精确的人类决策模型，安装有人类协作的人工智能系统具有很大的潜力。

Jun, 2020

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

在Colonel Blotto中的强化学习智能体

本文测试了基于强化学习的代理在Colonel Blotto环境下的表现，发现其能够轻松击败单个对手并在多个对手时表现良好，由此分析其最佳策略与单个对手时完全相反。

Apr, 2022

AlphaZero 中的有针对性搜索控制以实现有效策略改进

使用Go-Exploit进行AlphaZero的搜索控制，从而提高样本效率和性能，并相对于KataGo等其他策略展示出了更加有效的搜索控制策略。

Feb, 2023

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有2.7亿个参数的transformer模型进行监督学习，利用由强大的Stockfish 16引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约150亿个数据点，并达到了2895的Lichess快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了AlphaZero的策略和值网络（没有MCTS）以及GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

设计技能兼容的人工智能：国际象棋中的方法和框架

强大的人工智能系统通常用于与计算能力较低的代理进行交互，为了在这些设置中成功交互，除了超凡性能之外，人工智能系统还需要考虑低级行为或个体风格，本研究提出了正式的评估框架来评估接近最优的人工智能与计算能力较低的交互伙伴之间的兼容性，并使用合作国际象棋作为模型系统，通过开发可以成功与计算能力较低的实体进行交互的人工智能。

May, 2024

基于动态规划的模型预测控制和强化学习的统一框架

本文描述了一个将近似动态规划(DP)、模型预测控制(MPC)和强化学习(RL)连接起来的新概念框架，其中通过牛顿法的强大机制，离线训练和在线应用算法相互独立地设计，协同运作。这一理论架构为强化学习和模型预测控制之间的文化差距提供了桥梁，并对模型预测控制中的一些基本问题提供了新的见解。

Jun, 2024

国际象棋博弈神经网络中已学习到的预测能力的证据

神经网络在野外是否能够学习实现诸如预测或搜索等算法？还是纯粹依赖简单启发式规则的集合？我们通过Leela Chess Zero中感知网络的学到的预测来证明神经网络的学到的预测能力，并发现这些表示对其在特定局面下的最终输出至关重要。这些发现证明了神经网络学到的预测存在，并可能对我们对其能力的理解产生影响。

Jun, 2024