考虑从严格的行为数据中学习线性影响博弈 (LIGs) 的结构和参数,通过纯策略 Nash 平衡的最大似然估计 (MLE) 将学习问题转化为生成模型的估计,在控制平衡数量的同时捕捉数据中的均衡行为。该方法可以应用于识别大型 (社交) 网络中最有影响力的个体,并支持决策分析和其他普适性的图形游戏。
Jun, 2012
介绍了在不完全信息博弈中如何使用子游戏求解技术,这些技术可以适应对手的行动并改善游戏过程中的解,被用于 Libratus,它是第一个在无限制德州扑克中击败顶级人类的 AI。
May, 2017
该篇论文提出了一种通过让对手在深度限制处选择多个策略之一来在不完美信息游戏中进行有原则的深度限制求解的方法,证明了这种方法的有效性,并建立了一个仅使用4核CPU和16GB内存就可以击败之前的两个顶级代理的大师级德州扑克AI。
May, 2018
研究了在顺序不完美信息游戏中遵循规则的领导者动态,推广了 Poincaré 循环结果,并探讨了通过调整奖励来建立收敛保证的技术,进而构建了精确收敛到 Nash 平衡的算法,为零和二人不完美信息游戏的无模型算法提供了新思路。
Feb, 2020
通过将序列团队游戏转化为经典二人零和游戏,并提供三种信息不损失抽象,本文有效地应用了现有算法于互弈博弈中。
Jan, 2022
本文提出两种新算法:平衡在线镜像下降和平衡对策后悔最小化,通过整合平衡探索策略到它们的经典对应物算法,解决学习不完美信息的广义零和游戏的近似Nash均衡问题。同时,将结果推广到学习多人游戏的粗略相关均衡。
Feb, 2022
本研究探讨了面对多个对手的策略交互游戏,使用对手建模和观察对手策略等技术,超越纯理性策略的表现。
Dec, 2022
研究表明,通过公开玩家策略,可以从常见的收益游戏中摆脱不完美的信息,但同样的方法不能应用于两人零和游戏,该论文提出利用正则化平衡的方法来解决这个问题,以便计算这些均衡点可以被视为完美信息问题。
Jan, 2023
在不完全信息的游戏中,除了需要推断缺失信息外,还需防止泄露个人信息。本研究通过选择是否使用玩家的个人信息来提高游戏性能,并根据游戏中的位置使用新的信念分布,从而进一步提高性能。通过在多个基准测试和多个确定化算法(PIMC和IS-MCTS)上进行实验证明,此方法能够显著提高游戏表现。
May, 2024
通过经验研究我们发现,在不完全信息游戏中,一个较小数量的不同状态样本比重复取样少量状态更为重要,以获得更大的回报。
Jul, 2024