对抗性团队游戏的公共信息表示
该研究旨在通过引入一种名为 “团队公共信息” 的新游戏表述来解决一个问题,即针对信息不对称的团队在零和游戏中的行为策略,这种表述是高度可解释性的,同时保持了 2 人树形表达的计算效率和表达能力。
Jun, 2022
研究表明,通过公开玩家策略,可以从常见的收益游戏中摆脱不完美的信息,但同样的方法不能应用于两人零和游戏,该论文提出利用正则化平衡的方法来解决这个问题,以便计算这些均衡点可以被视为完美信息问题。
Jan, 2023
我们提供了这是我们所知的第一次对广泛形式的对抗性团队博弈进行计算研究。通过分别定义三种不同的通讯能力场景,我们研究了团队成员之间的通讯对解决方案的影响,同时也考虑了一些计算复杂性问题。最终通过实证研究来展示其可扩展性和不同通讯能力场景下的不足效率。
Nov, 2017
本文针对协作游戏的均衡点发现问题,提出了一种基于树分解的全新算法。该算法不仅能实现多项实践和理论上的突破,而且思路新颖、高效,可以直接描述相关策略的多面体,因此可以免费获取在相关策略下的平衡点。实验结果证明其在标准游戏套件上的性能超越了现有所有竞争算法,唯一的例外是一类特定的基准游戏。
Sep, 2021
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
我们研究了带有状态约束和单侧信息的零和微分博弈,其中被告知的玩家(玩家 1)具有未知于未告知玩家(玩家 2)的分类奖励类型。玩家 1 的目标是在不违反约束的情况下最小化他的奖励,而玩家 2 的目标是要么违反状态约束,要么最大化奖励。我们的理论贡献是将这一结果扩展到带有状态约束的微分博弈,并导出计算行为策略所必需的原始和对偶子动态规则。与现有关注可伸缩性和泛化性的不完全信息动态博弈研究相比,我们关注的是揭示由于信息不对称和状态约束而导致的信念操纵行为的机制。我们使用简化的足球比赛来证明这项工作的实用性,我们揭示了攻击者应该(或不应该)在特定随机虚假行动中利用信息不对称的玩家位置和信念状态,并计算出防守者应该如何应对。
Mar, 2024
本文从多个角度对对抗博弈中三种主要的游戏模型(零和标准型和扩展型游戏,Stakelberg 安全游戏和零和微分游戏)进行了系统的调研,涵盖了游戏模型基础知识,平衡概念,问题分类,研究前沿,最优策略寻找技术,主要算法和实际应用,并探讨了未来的研究方向。
Jul, 2022
我们介绍了一种简单的广义形式虚拟博弈算法,用于寻找二人零和游戏的均衡点,该算法实现等价于 Fictitious Play 的广义形式。与类似的广义形式虚拟博弈算法和反事实遗憾最小化算法相比,我们比较了其性能。这三种算法在减少存储需求和计算复杂度方面具有相同的优势,该新算法直观且容易实现,是寻求快速且简便的游戏求解工具的一个吸引人的选择。
Oct, 2023
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题,并给出了一组正负结果,其中提出的新算法在普通的策略类别小或对手策略类别小时,可取得平均的 regret 较小的结果。
Mar, 2022