关于完全信息博弈中的 “冷漠” 与逆向归纳
本文提出一种不需要假定逻辑全知的有限理性归纳代理理论,要求有限理性归纳代理无限次地测试每个高效可计算的假设,然后遵循那些能够实现高奖励的假设。同时,探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。
Jul, 2023
通过研究不完全记忆下的最优决策问题,我们分析了广义形式博弈中多个解概念(纳什均衡、基于证据决策理论的多个自体以及基于因果决策理论的多个自体)下,在多人情景中寻找均衡的计算复杂性,同时关注精确和近似解的计算。我们将单人游戏、两人零和游戏与最小最大值以及没有外在随机性(几率节点)的游戏作为特例,并将这些问题与复杂性类 P、PPAD、PLS、Σ₂ᴾ、∃R 和∃∀R 联系起来。
Jun, 2024
研究表明,通过公开玩家策略,可以从常见的收益游戏中摆脱不完美的信息,但同样的方法不能应用于两人零和游戏,该论文提出利用正则化平衡的方法来解决这个问题,以便计算这些均衡点可以被视为完美信息问题。
Jan, 2023
通过适应性算法的考虑以确保比修改行为所能达到的结果更好,我们可以基于相关学习动态产生新的博弈理论分析,这样做比基于平衡策略算法更加有效,因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型,证明了没有可行的概念包含所有其他类型,并引出了一个追溯与规避策略算法的平衡类别的定义。
Dec, 2020
该研究探讨了不完全回忆下的单人博弈理论,比如 “睡美人问题” 和 “健忘的司机游戏”,并找到了与之对应的平面最大化问题的解决方案,从而解决了这些策略计算的复杂性问题。
May, 2023
我们研究了带有状态约束和单侧信息的零和微分博弈,其中被告知的玩家(玩家 1)具有未知于未告知玩家(玩家 2)的分类奖励类型。玩家 1 的目标是在不违反约束的情况下最小化他的奖励,而玩家 2 的目标是要么违反状态约束,要么最大化奖励。我们的理论贡献是将这一结果扩展到带有状态约束的微分博弈,并导出计算行为策略所必需的原始和对偶子动态规则。与现有关注可伸缩性和泛化性的不完全信息动态博弈研究相比,我们关注的是揭示由于信息不对称和状态约束而导致的信念操纵行为的机制。我们使用简化的足球比赛来证明这项工作的实用性,我们揭示了攻击者应该(或不应该)在特定随机虚假行动中利用信息不对称的玩家位置和信念状态,并计算出防守者应该如何应对。
Mar, 2024
研究马尔可夫博弈中信息不对称和错误信息导致的安全威胁,通过考虑一名攻击者玩家散布关于其奖励函数的错误信息来影响受害者玩家的行为,我们推导了在最坏情况理性下受害者的策略,并提出了基于线性规划和反向归纳的多项式时间算法来计算攻击者的最优最坏情况策略,在受限的奖励函数集合中找到最优的错误奖励函数,我们的方法利用了理性的普遍假设来高效计算攻击,因此,我们的工作揭示了在错误信息下由标准游戏假设引起的安全漏洞。
Jun, 2024
在不完全信息的游戏中,除了需要推断缺失信息外,还需防止泄露个人信息。本研究通过选择是否使用玩家的个人信息来提高游戏性能,并根据游戏中的位置使用新的信念分布,从而进一步提高性能。通过在多个基准测试和多个确定化算法(PIMC 和 IS-MCTS)上进行实验证明,此方法能够显著提高游戏表现。
May, 2024