Giraffe：使用深度强化学习下棋

Sep, 2015

Giraffe: Using Deep Reinforcement Learning to Play Chess

Matthew Lai

TL;DR介绍一种名为 Giraffe 的象棋引擎，使用自我学习和特征提取等机器学习方法，无需程序员提供过多的手工知识，通过机器学习的方法对手工筛选出的表现函数进行调参、特征提取和模式识别等操作，在实验中表现不输于同类引擎，是目前最成功使用机器学习进行端对端象棋游戏的尝试。

Abstract

This report presents Giraffe, a chess engine that uses self-play to discover all its domain-specific knowledge, with minimal hand-crafted knowledge given by the programmer. Unlike previous attempts using

chess engine self-play machine learning evaluation function feature extraction

发现论文，激发创造

DeepChess: 棋类自动学习的端到端深度神经网络

本文介绍了一种基于深度神经网络的端到端学习方法，通过无监督预训练和有监督训练来训练神经网络，实现了无先验知识的自动下棋策略，结果表明 DeepChess 能够和经过多年人工调整的机器下棋程序相媲美，是第一个能够实现国际象棋特级大师水平的端到端机器学习方法。

Nov, 2017

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024

将超级智能与人类行为相一致：以象棋为模型系统

研究人员基于人类下棋决策的详细数据，通过 AlphaZero 构建了一种定制化的人工智能引擎 Maia，能够更准确地预测人类棋手的下棋。这项研究表明，重点是建立精确的人类决策模型，安装有人类协作的人工智能系统具有很大的潜力。

Jun, 2020

深度学徒学习在游戏中的应用

这篇论文提出了一种新的学习方法，基于以前在强化学习中的监督学习技术，使用 Atari 游戏的视频帧来教授人工智能代理玩游戏，虽然结果不如强化学习的最新成果，但证明这种方法有潜力并值得进一步研究。

May, 2022

无需人类知识解决魔方

自学习算法 Autodidactic Iteration 可以在没有人类协助的情况下解决魔方问题，并且其解决问题的长度小于或等于采用人类领域知识的算法。

May, 2018

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习，利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约 150 亿个数据点，并达到了 2895 的 Lichess 快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了 AlphaZero 的策略和值网络（没有 MCTS）以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

深度强化学习教科书

本书提供了深度强化学习领域的全面概述，主要涵盖了建立领域基础，算法和应用，同时介绍了一些先进主题，如深度多智能体强化学习、深层次强化学习和深元学习；本书适用于人工智能的研究者、从业者和研究生，假定读者具有本科水平的计算机科学和人工智能理解，编程语言使用 Python。

Jan, 2022

侦察盲棋中的观测监督学习和强化学习

本研究采用 AlphaGo 启发的训练方法来玩不完全信息的侦察盲棋，通过自我对弈与 PP0 强化学习算法来提高非监督代理性能，用此方法在 RBC 排行榜上达到 1330 ELO，排名第 27，证明了自我对弈对性能的显著提升，而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。

Aug, 2022