Feb, 2022

对抗无悔玩家

TL;DR研究使用无遗憾算法在正态形式重复的 N 人博弈中,如何让人类玩家获得最大化效用,引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念,证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。