通过对信息集进行采样高效训练不完全信息博弈的神经网络
该篇论文提出了一种通过让对手在深度限制处选择多个策略之一来在不完美信息游戏中进行有原则的深度限制求解的方法,证明了这种方法的有效性,并建立了一个仅使用4核CPU和16GB内存就可以击败之前的两个顶级代理的大师级德州扑克AI。
May, 2018
本研究关注游戏玩家状态采样过程,提出使用深度神经网络预测游戏实际牌局状态的新方法以及完全信息蒙特卡罗(PIMC)搜索相结合,用于提高Skat游戏玩家的卡牌游戏强度。
Mar, 2019
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文介绍了ReBeL,它是一种通用的强化学习和搜索框架,并在任何两人零和博弈中证明收敛于纳什平衡。同时,使用比任何先前的扑克AI更少的领域知识,ReBeL在无限制德州扑克中实现了超人类性能。
Jul, 2020
本研究通过考虑围棋的语言建模任务为基础,探索如何评估Transformer语言模型对文本子表面的世界状态的准确跟踪。研究发现,当仅在移动序列上进行训练时,具有足够训练数据的Transformer语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要,而只进行部分关注则会导致性能下降。
Feb, 2021
本文提出两种新算法:平衡在线镜像下降和平衡对策后悔最小化,通过整合平衡探索策略到它们的经典对应物算法,解决学习不完美信息的广义零和游戏的近似Nash均衡问题。同时,将结果推广到学习多人游戏的粗略相关均衡。
Feb, 2022
本研究采用AlphaGo启发的训练方法来玩不完全信息的侦察盲棋,通过自我对弈与PP0强化学习算法来提高非监督代理性能,用此方法在RBC排行榜上达到1330 ELO,排名第27,证明了自我对弈对性能的显著提升,而不使用搜索和对真实游戏状态的假设也能使代理表现得相当不错。
Aug, 2022
在不完全信息的游戏中,除了需要推断缺失信息外,还需防止泄露个人信息。本研究通过选择是否使用玩家的个人信息来提高游戏性能,并根据游戏中的位置使用新的信念分布,从而进一步提高性能。通过在多个基准测试和多个确定化算法(PIMC和IS-MCTS)上进行实验证明,此方法能够显著提高游戏表现。
May, 2024
在不完全信息游戏中,我们扩展了之前关于信息集中状态加权的研究,通过训练两个神经网络来估计每个信息集中状态的可能性,并根据生成的权重评估了一个基于这些权重的RBC玩家,最终在公开排行榜上获得第5名。
Jul, 2024