Jan, 2019

学习平均场博弈

TL;DR该论文提出了一个通用平均场博弈(GMFG)框架,用于解决具有大量人口的随机博弈中的学习和决策问题。它提出了一种使用玻尔兹曼策略(GMF-Q)的 Q 学习算法,并进行了收敛性质和计算复杂度的分析。实验表明该 GMF-Q 算法在收敛性和学习精度方面高效稳健,比现有的多智能体强化学习算法具有更好的性能。