Dec, 2021

强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗?

TL;DR研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。