Oct, 2023

学习具有未知图内核的正则化图均场博弈

TL;DR我们设计和分析了一种用于图形平均场博弈算法(GMFGs)的强化学习算法。相较于以往需要准确的图形值的方法,我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡(NE)。我们的贡献有三个方面。首先,我们提出了用于 GMFG 的邻近策略优化(GMFG-PPO)算法,并证明在估计训练次数为 T 次之后以 $O (T^{-1/3})$ 的速率收敛,改进了 Xie 等人(ICML,2021)的之前研究。其次,利用分布的核嵌入,我们设计了高效的算法来估计从采样智能体获得的转移核、奖励函数和图形值。当智能体位置已知或未知时,推导了收敛速度。然后提供了 GMFG-PPO 优化算法和估计算法的组合结果。这些算法是专门用于从采样智能体中学习图形值的首个算法。最后,我们通过模拟验证了提出算法的有效性。这些模拟表明学习未知的图形值能够有效地减少可利用性。