通过对信息集进行采样高效训练不完全信息博弈的神经网络

Jul, 2024

通过对信息集进行采样高效训练不完全信息博弈的神经网络

Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets

Timo Bertram, Johannes Fürnkranz, Martin Müller

TL;DR通过经验研究我们发现，在不完全信息游戏中，一个较小数量的不同状态样本比重复取样少量状态更为重要，以获得更大的回报。

Abstract

In imperfect information games, the evaluation of a game state not only depends on the observable world but also relies on hidden parts of the environment. As accessing the obstructed information trivialises state evaluations, one approach to tackle such problems is to estimate the val

发现论文，激发创造

有限深度求解不完全信息博弈

该篇论文提出了一种通过让对手在深度限制处选择多个策略之一来在不完美信息游戏中进行有原则的深度限制求解的方法，证明了这种方法的有效性，并建立了一个仅使用4核CPU和16GB内存就可以击败之前的两个顶级代理的大师级德州扑克AI。

May, 2018

运用监督学习改进基于花色的纸牌游戏中的搜索

本研究关注游戏玩家状态采样过程，提出使用深度神经网络预测游戏实际牌局状态的新方法以及完全信息蒙特卡罗（PIMC）搜索相结合，用于提高Skat游戏玩家的卡牌游戏强度。

Mar, 2019

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

基于深度强化学习和搜索算法的不完全信息博弈组合

本文介绍了ReBeL，它是一种通用的强化学习和搜索框架，并在任何两人零和博弈中证明收敛于纳什平衡。同时，使用比任何先前的扑克AI更少的领域知识，ReBeL在无限制德州扑克中实现了超人类性能。

Jul, 2020

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

具有不完全信息的广义博弈的近最优学习

本文提出两种新算法：平衡在线镜像下降和平衡对策后悔最小化，通过整合平衡探索策略到它们的经典对应物算法，解决学习不完美信息的广义零和游戏的近似Nash均衡问题。同时，将结果推广到学习多人游戏的粗略相关均衡。

Feb, 2022

侦察盲棋中的观测监督学习和强化学习

本研究采用AlphaGo启发的训练方法来玩不完全信息的侦察盲棋，通过自我对弈与PP0强化学习算法来提高非监督代理性能，用此方法在RBC排行榜上达到1330 ELO，排名第27，证明了自我对弈对性能的显著提升，而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。

Aug, 2022

不完全信息博弈中的历史过滤：算法与复杂度

我们介绍和分析了子游戏分解中过滤历史的计算方面和可处理性，揭示了深度有限搜索通过子游戏分解在不完全信息环境下进行顺序决策的时机和方式。

Nov, 2023

公共和私人分布在信息不完全博弈中的混合

在不完全信息的游戏中，除了需要推断缺失信息外，还需防止泄露个人信息。本研究通过选择是否使用玩家的个人信息来提高游戏性能，并根据游戏中的位置使用新的信念分布，从而进一步提高性能。通过在多个基准测试和多个确定化算法（PIMC和IS-MCTS）上进行实验证明，此方法能够显著提高游戏表现。

May, 2024

基于神经网络的信息集加权在玩侦察盲棋中的应用

在不完全信息游戏中，我们扩展了之前关于信息集中状态加权的研究，通过训练两个神经网络来估计每个信息集中状态的可能性，并根据生成的权重评估了一个基于这些权重的RBC玩家，最终在公开排行榜上获得第5名。

Jul, 2024