XQSV:一种变结构网络模拟中国象棋中人类对弈
本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键,并提供一种通用的表示方法,以减轻对每个游戏进行表示学习的负担,并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。
Dec, 2015
本研究旨在提出两种适用于强化学习中神经网络的激活函数,即Sigmoid-weighted Linear Unit(SiLU)和其导数函数(dSiLU)。同时提出使用在线学习和简单的动态退火softmax进行行动选择,可以与Deep Q Network(DQN)相竞争。此外,还在Atari 2600和SZ-Tetris等游戏方面,提出的改进网络和学习策略实现了最先进的结果。
Feb, 2017
介绍了一种用于Deep Reinforcement Learning中Q functions的mimic learning framework,使用Linear Model U-trees替代神经网络的Q function预测,通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。
Jul, 2018
本论文从算法和统计角度出发,对深度强化学习中的深度Q网络算法进行了理论分析,并给出了收敛速率。作者还提出了Minimax-DQN算法,并将其与马尔可夫博弈的Nash均衡进行收敛速率的比较。
Jan, 2019
研究人员基于人类下棋决策的详细数据,通过AlphaZero构建了一种定制化的人工智能引擎Maia,能够更准确地预测人类棋手的下棋。这项研究表明,重点是建立精确的人类决策模型,安装有人类协作的人工智能系统具有很大的潜力。
Jun, 2020
我们介绍了一个数据集,命名为ChessVision数据集,其中包含200,000+张带有注释的象棋游戏进行中的图像,需要从图像中重新创建游戏状态,并附带一套约束以确保产生“合理”的游戏状态,同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析,我们发现现有的视觉模型在标准指标上表现可观,但产生了大量不连贯的结果,这表明此数据集对未来研究提出了重大挑战。
Nov, 2023
探索了图神经网络在自我对战强化学习中是否能取代卷积神经网络的关键问题,结果发现图神经网络在处理游戏状态中的长距离依赖有优势和降低过拟合的倾向,但在辨别局部模式方面不如卷积神经网络,此发现暗示了自我对战强化学习中使用游戏特定结构以重新塑造学习的潜在范式转变。
Nov, 2023
迄今为止,语言模型的出色表现引发了对其性能来源的争议,是仅仅学习句法模式和表面统计的结果,还是从文本中提取了语义和世界模型?本研究在国际象棋这一更复杂的领域中扩展了之前的工作,通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示,发现该模型具有棋盘状态的内部表示,同时对玩家技能等潜在变量进行估计,提升了模型的胜率达到2.6倍。
Mar, 2024
在这项研究中,提出了一种最新的灵活深度 Q 网络 (FDQN) 框架,能够通过自适应方法在动态环境中处理高维度感知数据,实时进行决策,并动态调整模型结构以适应不同游戏环境的行动空间,相对于基准模型,在各种 Atari 游戏和 Chrome Dino 游戏中取得优异表现。该框架采用 epsilon-greedy 策略有效平衡新的学习和探索,其模块化结构可以轻松应用于其他基于 HTML 的游戏,同时提到了该框架在实验室条件下成功解决了一个明确定义的任务,并探讨了其在更具挑战的真实世界情境和自动化游戏玩法等领域的潜在应用。
May, 2024
本文解决了计算机国际象棋中的移动选择问题,通过模型预测控制、回滚和强化学习的方法引入了一种新的架构。研究结果表明,该架构显著提升了位置评估引擎的性能,为各种水平的国际象棋引擎增加了一层智能。
Sep, 2024