Oct, 2022

多人游戏中学习可理性均衡

TL;DR本文提出了第一种高效算法用于学习通过较粗的相关均衡(CCE)和相关均衡(CE)合理化行为的多智能体学习,这些算法的样本复杂度与所有问题参数(包括玩家数量)的多项式成正比,同时还开发了一种新的高效算法来找到一个合理化的行动规划(不一定是均衡),该算法的样本复杂度显著优于现有结果。算法采用了几种新技术来同时保证理性和无择性遗憾,包括相关探索方案和自适应学习速率。