Dec, 2023
未知独立链 $n$- 人随机博弈中纳什均衡策略的可扩展与独立学习
Scalable and Independent Learning of Nash Equilibrium Policies in $n$-Player Stochastic Games with Unknown Independent Chains
Tiancheng Qin, S. Rasoul Etesami
TL;DR在一种类别的随机博弈中,利用自治的镜面下降算法通过占用测量和置信区间技术提出了一种学习算法,以构建稳定的 ε-NE 策略集合,并证明了其多项式时间收敛性。