May, 2024

两人盲拧游戏中无算法串通的托马斯・桑普林

TL;DR当两个玩家在具有未知收益矩阵的重复博弈中相互无意识地使用多臂赌博算法选择行动时,我们展示了当玩家使用汤普森抽样时,游戏动态收敛到纳什均衡的情况,尽管在这种情况下算法勾结不会发生,尽管玩家没有刻意采取竞争策略。为了证明收敛结果,我们发现随机逼近中开发的框架不适用,因为劣势行动的零星且不频繁的更新和缺乏 Lipschitz 连续性。我们开发了一种新颖的样本路径方法来展示收敛。