We study a decentralized cooperative stochastic multi-armed bandit problem
with $K$ arms on a network of $N$ agents. In our model, the reward distribution
of each arm is the same for each agent and rewards are dr
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定,其中 D 是图 G 的直径。最后,我们通过与其他方法的比较对算法进行了数值测试。