Giraffe:使用深度强化学习下棋
本文介绍了一种基于深度神经网络的端到端学习方法,通过无监督预训练和有监督训练来训练神经网络,实现了无先验知识的自动下棋策略,结果表明 DeepChess 能够和经过多年人工调整的机器下棋程序相媲美,是第一个能够实现国际象棋特级大师水平的端到端机器学习方法。
Nov, 2017
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
本研究展示了一种探测自学习算法在训练过程中内部概念的方法,以国际象棋游戏代理为例进行了演示,此方法适用于没有大量计算资源或机器学习模型的研究团体。
Nov, 2022
使用搜索算法和深度强化学习,本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。
May, 2024
研究人员基于人类下棋决策的详细数据,通过 AlphaZero 构建了一种定制化的人工智能引擎 Maia,能够更准确地预测人类棋手的下棋。这项研究表明,重点是建立精确的人类决策模型,安装有人类协作的人工智能系统具有很大的潜力。
Jun, 2020
这篇论文提出了一种新的学习方法,基于以前在强化学习中的监督学习技术,使用 Atari 游戏的视频帧来教授人工智能代理玩游戏,虽然结果不如强化学习的最新成果,但证明这种方法有潜力并值得进一步研究。
May, 2022
研究表明,机器学习中的重要突破主要归功于规模,特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习,利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释,得到了约 150 亿个数据点,并达到了 2895 的 Lichess 快棋等级分,成功解决了一系列有难度的国际象棋难题,而无需特定领域的优化或显式搜索算法。研究还表明,我们的模型在性能上超过了 AlphaZero 的策略和值网络(没有 MCTS)以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明,只有在足够规模的情况下,才能展现强大的国际象棋性能。为了验证我们的结果,我们进行了一系列关于设计选择和超参数的消融实验。
Feb, 2024
本书提供了深度强化学习领域的全面概述,主要涵盖了建立领域基础,算法和应用,同时介绍了一些先进主题,如深度多智能体强化学习、深层次强化学习和深元学习;本书适用于人工智能的研究者、从业者和研究生,假定读者具有本科水平的计算机科学和人工智能理解,编程语言使用 Python。
Jan, 2022
本研究采用 AlphaGo 启发的训练方法来玩不完全信息的侦察盲棋,通过自我对弈与 PP0 强化学习算法来提高非监督代理性能,用此方法在 RBC 排行榜上达到 1330 ELO,排名第 27,证明了自我对弈对性能的显著提升,而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。
Aug, 2022