基于神经网络的信息集加权在玩侦察盲棋中的应用

Jul, 2024

基于神经网络的信息集加权在玩侦察盲棋中的应用

Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess

Timo Bertram, Johannes Fürnkranz, Martin Müller

TL;DR在不完全信息游戏中，我们扩展了之前关于信息集中状态加权的研究，通过训练两个神经网络来估计每个信息集中状态的可能性，并根据生成的权重评估了一个基于这些权重的RBC玩家，最终在公开排行榜上获得第5名。

Abstract

In imperfect information games, the game state is generally not fully observable to players. Therefore, good gameplay requires policies that deal with the different information that is hidden from each player. To combat this, effective algorithms often reason about →

发现论文，激发创造

DeepStack: 无限制德州扑克中的专家级人工智能

使用递归推理、分解和深度学习自主学习的一种直觉，结合理论支撑，DeepStack算法用于处理不完全信息下的决策，并在44000手牌的实验中，在无限制德克萨斯扑克的头对头对决中，显著击败了职业扑克玩家，生成了更难被利用的策略。

Jan, 2017

我们在玩什么游戏？正常形式与广义形式博弈中的端到端学习

本文提出一种基于可微分学习框架的扩展型博弈求解方法，包括一个求解量化应答均衡点的迭代算法和一个反向传播算法，该方法能够通过深度学习模型端到端地学习博弈模型，我们在多个博弈场景下进行了验证。

May, 2018

运用监督学习改进基于花色的纸牌游戏中的搜索

本研究关注游戏玩家状态采样过程，提出使用深度神经网络预测游戏实际牌局状态的新方法以及完全信息蒙特卡罗（PIMC）搜索相结合，用于提高Skat游戏玩家的卡牌游戏强度。

Mar, 2019

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

动态博弈论神经优化器

提出了一种通过将每个神经网络中的每个层视为动态博弈中的玩家来进行训练的优化器Dynamic Game Theoretic Neural Optimizer (DGNOpt)，该优化器不仅将OCT-inspired优化器推广到更丰富的网络类，还通过求解多人合作游戏来提出了一种新的训练原则，并在残差网络和 Inception网络的图像分类数据集上表现出更好的收敛效果，结合了OCT和博弈论的优点，为稳健的最优控制和基于赌博机的优化提供了新的算法机会。

May, 2021

侦察盲棋中的观测监督学习和强化学习

本研究采用AlphaGo启发的训练方法来玩不完全信息的侦察盲棋，通过自我对弈与PP0强化学习算法来提高非监督代理性能，用此方法在RBC排行榜上达到1330 ELO，排名第27，证明了自我对弈对性能的显著提升，而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。

Aug, 2022

基于信息的深度学习代理解释方法——在大型开源国际象棋模型上的应用

通过使用大规模开源的国际象棋模型重新实现McGrath等人（2022）中应用于AlphaZero的概念检测方法，并获得与AlphaZero相似的结果，本研究还提出了一种新颖的可解释人工智能（XAI）方法，该方法能够全面、独立地突出显示被解释模型使用的信息，该方法生成适用于国际象棋等具有离散输入空间特征的领域的可视化解释，通过应用于标准的8x8国际象棋验证了该方法的可行性。

Sep, 2023

ChessVision -- 逻辑连贯多标签分类的数据集

我们介绍了一个数据集，命名为ChessVision数据集，其中包含200,000+张带有注释的象棋游戏进行中的图像，需要从图像中重新创建游戏状态，并附带一套约束以确保产生“合理”的游戏状态，同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析，我们发现现有的视觉模型在标准指标上表现可观，但产生了大量不连贯的结果，这表明此数据集对未来研究提出了重大挑战。

Nov, 2023

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有2.7亿个参数的transformer模型进行监督学习，利用由强大的Stockfish 16引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约150亿个数据点，并达到了2895的Lichess快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了AlphaZero的策略和值网络（没有MCTS）以及GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

通过对信息集进行采样高效训练不完全信息博弈的神经网络

通过经验研究我们发现，在不完全信息游戏中，一个较小数量的不同状态样本比重复取样少量状态更为重要，以获得更大的回报。

Jul, 2024