Dec, 2023

未知独立链$n$-人随机博弈中纳什均衡策略的可扩展与独立学习

TL;DR在一种类别的随机博弈中,利用自治的镜面下降算法通过占用测量和置信区间技术提出了一种学习算法,以构建稳定的ε-NE策略集合,并证明了其多项式时间收敛性。