Jan, 2022

离线双人零和马尔可夫博弈何时可解?

TL;DR研究离线双人零和马尔可夫博弈中的数据集假设,发现单一策略浓度假设不能学习纳什均衡策略,提出一种名为单边浓度的新假设,并设计一种基于悲观主义的算法在该假设下可以高效地学习NE策略,并证明单边浓度的假设是学习NE策略所必需的。此外,算法可以在具有均匀浓度假设和基于回合的马尔科夫游戏的两种广泛研究的设置中实现极小最大样本复杂度。