May, 2024

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

TL;DRMF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法,通过计算累积偏差达到高概率遗憾边界,从而为单调均场博弈提供了可行的全局收敛的计算算法。