- 学习击败 ByteRL:可收集卡牌游戏智能体的可利用性
通过对 ByteRL 在《法典传说》和《炉石传说》中的表现进行初步分析,我们发现这种技术在这类游戏中的可利用性很高。
- 耦合分布式随机逼近的失配优化率分析
我们提出了一种耦合的分布式随机逼近算法来解决具有不完美信息特征的参数化分布式优化问题,对该算法的收敛性进行了定量分析,并证明了决策变量的均方误差受网络连接性和迭代次数的影响,此外,对达到主导收敛速率所需的临时迭代次数进行了分析,并通过数值实 - 基于 Transformer 的观察空间规划及其在扑克牌游戏中的应用
GO-MCTS 是一种利用代理观察生成序列进行搜索的广义观察蒙特卡洛树搜索方法,通过基于种群的自我对弈迭代训练 transformer 模型,有效解决了在不完全信息游戏中搜索算法的局限性。
- 将不完备信息从双人零和博弈中抽象出来
研究表明,通过公开玩家策略,可以从常见的收益游戏中摆脱不完美的信息,但同样的方法不能应用于两人零和游戏,该论文提出利用正则化平衡的方法来解决这个问题,以便计算这些均衡点可以被视为完美信息问题。
- 使用无模型多智能体强化学习掌握战术游戏 Stratego
DeepNash 是一个能够从零开始学习玩 Stratego 的自主智能体,利用无搜索的博弈论模型自学习深度强化学习方法,学会决策不完美信息的游戏,并超越了现有的 AI 方法,在 2022 年的 Gravon 游戏平台上与人类专家玩家竞争, - 在具有概率集合的多标签问题中进行怀疑二元推断
本文探讨了分布鲁棒的怀疑推断在多标签问题中的应用,特别是在 Hamming 损失方面,表明我们的方法可以在某些情况下提供有用的推断,并证明在处理不完整信息时比其它方法更优。
- 信息分享系统中战略能力的模型验证
本文介绍了一种带有私有数据共享能力的不完美信息的并发博弈结构子类,这些结构可以通过特定的 ATL 片段模型检查,被称为 A-cast 系统,可以编码安全领域的复杂问题,如身份验证中的恐怖主义欺诈攻击。
- 重复关键字拍卖中人性化策略的推理
本文提出在不完全信息的背景下采用自然策略解决在线广告关键字拍卖竞价策略博弈问题。文中提出一定量的自然策略逻辑,用于展示竞价拍卖的对策建模并证明相关属性。同时,对比了有与无记忆策略的博弈逻辑优劣及其可区分性、表达能力和模型检查复杂度。
- IJCAI使用利用率下降算法计算序列对抗游戏的近似均衡
本文提出了一种名为 “Exploitability Descent” 的新算法,通过直接针对最坏情况的对手进行策略优化,计算具有不完全信息的两人零和博弈的近似均衡。我们证明,当遵循此优化时,玩家策略的可利用性会渐近地收敛于零,因此当两个玩家 - 具有不完全信息和完美回忆的 ATL * 的可决定性结果
本研究探讨了 ATL * 在不完全信息环境下(ATL * i)扩展的决策问题,首先证明了 ATL *(具有策略背景和不完全信息)的模型检查是可判定决策的,其次证明了当限制到分层实例时该问题是可判定的。
- ICML多智能体强化学习中以自我为本地对他人建模
本文提出了一种基于 Self Other-Modeling 的学习方法,用于解决多智能体强化学习中的信息不完全问题,并可用于解决合作和敌对情境下的任务。
- DeepStack: 无限制德州扑克中的专家级人工智能
使用递归推理、分解和深度学习自主学习的一种直觉,结合理论支撑,DeepStack 算法用于处理不完全信息下的决策,并在 44000 手牌的实验中,在无限制德克萨斯扑克的头对头对决中,显著击败了职业扑克玩家,生成了更难被利用的策略。
- 不完美信息游戏中来自自我对弈的深度强化学习
本文介绍了一种可推广的终端到终端学习方法,结合了虚构自游戏和深度强化学习来学习近似 Nash 均衡。在 Leduc 扑克和真实规模的 Limit Texas Holdem 游戏中,NFSP 相比于传统强化学习方法,接近甚至超过了基于领域知识