Dec, 2023

弱可达情况下的零和马尔可夫博弈纳什均衡学习

TL;DR通过利用 Tsallis 熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了 Tsallis 熵的新特性,这些特性具有独立的研究价值。