基于神经网络的信息集加权在玩侦察盲棋中的应用
使用递归推理、分解和深度学习自主学习的一种直觉,结合理论支撑,DeepStack算法用于处理不完全信息下的决策,并在44000手牌的实验中,在无限制德克萨斯扑克的头对头对决中,显著击败了职业扑克玩家,生成了更难被利用的策略。
Jan, 2017
本文提出一种基于可微分学习框架的扩展型博弈求解方法,包括一个求解量化应答均衡点的迭代算法和一个反向传播算法,该方法能够通过深度学习模型端到端地学习博弈模型,我们在多个博弈场景下进行了验证。
May, 2018
本研究关注游戏玩家状态采样过程,提出使用深度神经网络预测游戏实际牌局状态的新方法以及完全信息蒙特卡罗(PIMC)搜索相结合,用于提高Skat游戏玩家的卡牌游戏强度。
Mar, 2019
本研究通过考虑围棋的语言建模任务为基础,探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现,当仅在移动序列上进行训练时,具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要,而只进行部分关注则会导致性能下降。
Feb, 2021
提出了一种通过将每个神经网络中的每个层视为动态博弈中的玩家来进行训练的优化器Dynamic Game Theoretic Neural Optimizer (DGNOpt),该优化器不仅将OCT-inspired优化器推广到更丰富的网络类,还通过求解多人合作游戏来提出了一种新的训练原则,并在残差网络和 Inception网络的图像分类数据集上表现出更好的收敛效果,结合了OCT和博弈论的优点,为稳健的最优控制和基于赌博机的优化提供了新的算法机会。
May, 2021
本研究采用AlphaGo启发的训练方法来玩不完全信息的侦察盲棋,通过自我对弈与PP0强化学习算法来提高非监督代理性能,用此方法在RBC排行榜上达到1330 ELO,排名第27,证明了自我对弈对性能的显著提升,而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。
Aug, 2022
通过使用大规模开源的国际象棋模型重新实现McGrath等人(2022)中应用于AlphaZero的概念检测方法,并获得与AlphaZero相似的结果,本研究还提出了一种新颖的可解释人工智能(XAI)方法,该方法能够全面、独立地突出显示被解释模型使用的信息,该方法生成适用于国际象棋等具有离散输入空间特征的领域的可视化解释,通过应用于标准的8x8国际象棋验证了该方法的可行性。
Sep, 2023
我们介绍了一个数据集,命名为ChessVision数据集,其中包含200,000+张带有注释的象棋游戏进行中的图像,需要从图像中重新创建游戏状态,并附带一套约束以确保产生“合理”的游戏状态,同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析,我们发现现有的视觉模型在标准指标上表现可观,但产生了大量不连贯的结果,这表明此数据集对未来研究提出了重大挑战。
Nov, 2023
研究表明,机器学习中的重要突破主要归功于规模,特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有2.7亿个参数的transformer模型进行监督学习,利用由强大的Stockfish 16引擎提供的动作价值为数据集中的每个棋盘进行注释,得到了约150亿个数据点,并达到了2895的Lichess快棋等级分,成功解决了一系列有难度的国际象棋难题,而无需特定领域的优化或显式搜索算法。研究还表明,我们的模型在性能上超过了AlphaZero的策略和值网络(没有MCTS)以及GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明,只有在足够规模的情况下,才能展现强大的国际象棋性能。为了验证我们的结果,我们进行了一系列关于设计选择和超参数的消融实验。
Feb, 2024