Mar, 2023

网络马尔可夫潜力博弈中本地化 Actor-Critic 的收敛速率

TL;DR本研究提出了一种基于网络结构的马尔可夫潜在博弈模型,以及一种局部演员 - 评论家算法,利用函数逼近方法克服了维度诅咒,并给出了与局部误差和函数逼近误差有关的有限样本保证,实验证明该算法能够有效地处理多智能体竞争博弈问题。