关于完全信息博弈中的 “冷漠” 与逆向归纳

Jul, 2023

关于完全信息博弈中的 “冷漠” 与逆向归纳

On "Indifference" and Backward Induction in Games with Perfect Information

Nimrod Megiddo

TL;DR对于一场比赛中与两个不同结果相对无动于衷的玩家，无法通过小幅扰动来处理，因为实际选择可能对其他玩家产生重大影响，并导致他们采取对无动于衷玩家有重大影响的方式。据认为，合理选择之间的平局可以通过基于其他玩家效用的合理性概念的改进来解决，其中一种改进就是 Tit-for-Tat 概念。

Abstract

indifference of a player with respect to two distinct outcomes of a game cannot be handled by small →

indifference player outcomes perturbations tit-for-tat

发现论文，激发创造

有限感性合理性理论

本文提出一种不需要假定逻辑全知的有限理性归纳代理理论，要求有限理性归纳代理无限次地测试每个高效可计算的假设，然后遵循那些能够实现高奖励的假设。同时，探讨了不同有限理性归纳代理之间的策略交互并证明了有限理性归纳代理可以趋于何种策略的民间定理。

Jul, 2023

不完全回忆博弈：均衡概念及其复杂性

通过研究不完全记忆下的最优决策问题，我们分析了广义形式博弈中多个解概念（纳什均衡、基于证据决策理论的多个自体以及基于因果决策理论的多个自体）下，在多人情景中寻找均衡的计算复杂性，同时关注精确和近似解的计算。我们将单人游戏、两人零和游戏与最小最大值以及没有外在随机性（几率节点）的游戏作为特例，并将这些问题与复杂性类 P、PPAD、PLS、Σ₂ᴾ、∃R 和∃∀R 联系起来。

Jun, 2024

将不完备信息从双人零和博弈中抽象出来

研究表明，通过公开玩家策略，可以从常见的收益游戏中摆脱不完美的信息，但同样的方法不能应用于两人零和游戏，该论文提出利用正则化平衡的方法来解决这个问题，以便计算这些均衡点可以被视为完美信息问题。

Jan, 2023

计算理性化：逆平衡问题

该文介绍了一种在多智能体领域应用的、基于逆优化控制、遗憾和最大熵原理的方法，用于预测与推广多智能体的行为，并恢复其奖励函数。

Mar, 2011

可观测完美均衡

本文定义了一种名为可观测完美均衡的平衡改进概念，它在公开可见的动作概率上是鲁棒的，并证明了它总是保证存在的。该概念被证明在具有重要不完美信息的游戏中是有用的。

Oct, 2022

相关对局的回顾性和序贯理性

通过适应性算法的考虑以确保比修改行为所能达到的结果更好，我们可以基于相关学习动态产生新的博弈理论分析，这样做比基于平衡策略算法更加有效，因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型，证明了没有可行的概念包含所有其他类型，并引出了一个追溯与规避策略算法的平衡类别的定义。

Dec, 2020

单人不完全回忆博弈的计算复杂度

该研究探讨了不完全回忆下的单人博弈理论，比如 “睡美人问题” 和 “健忘的司机游戏”，并找到了与之对应的平面最大化问题的解决方案，从而解决了这些策略计算的复杂性问题。

May, 2023

带有单边信息的受状态限制的零和微分博弈

我们研究了带有状态约束和单侧信息的零和微分博弈，其中被告知的玩家（玩家 1）具有未知于未告知玩家（玩家 2）的分类奖励类型。玩家 1 的目标是在不违反约束的情况下最小化他的奖励，而玩家 2 的目标是要么违反状态约束，要么最大化奖励。我们的理论贡献是将这一结果扩展到带有状态约束的微分博弈，并导出计算行为策略所必需的原始和对偶子动态规则。与现有关注可伸缩性和泛化性的不完全信息动态博弈研究相比，我们关注的是揭示由于信息不对称和状态约束而导致的信念操纵行为的机制。我们使用简化的足球比赛来证明这项工作的实用性，我们揭示了攻击者应该（或不应该）在特定随机虚假行动中利用信息不对称的玩家位置和信念状态，并计算出防守者应该如何应对。

Mar, 2024

Inception: 高效可计算的马尔可夫博弈虚假信息攻击

研究马尔可夫博弈中信息不对称和错误信息导致的安全威胁，通过考虑一名攻击者玩家散布关于其奖励函数的错误信息来影响受害者玩家的行为，我们推导了在最坏情况理性下受害者的策略，并提出了基于线性规划和反向归纳的多项式时间算法来计算攻击者的最优最坏情况策略，在受限的奖励函数集合中找到最优的错误奖励函数，我们的方法利用了理性的普遍假设来高效计算攻击，因此，我们的工作揭示了在错误信息下由标准游戏假设引起的安全漏洞。

Jun, 2024

公共和私人分布在信息不完全博弈中的混合

在不完全信息的游戏中，除了需要推断缺失信息外，还需防止泄露个人信息。本研究通过选择是否使用玩家的个人信息来提高游戏性能，并根据游戏中的位置使用新的信念分布，从而进一步提高性能。通过在多个基准测试和多个确定化算法（PIMC 和 IS-MCTS）上进行实验证明，此方法能够显著提高游戏表现。

May, 2024