Manjesh Kumar Hanawal, Venkatesh Saligrama, Michal Valko, R\' emi Munos
TL;DR本文提出了 CheapUCB 算法,该算法用于最大化学习的累积奖励,同时保证感知成本最小。此外,作者还就一类有效维度为 d 的图谱建立了一个渐进的下界,即谱臂老虎机的累积遗憾为 Ω(T sqrt d)。
Abstract
We consider stochastic sequential learning problems where the learner can
observe the \textit{average reward of several actions}. Such a setting is
interesting in many applications involving monitoring and survei
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定,其中 D 是图 G 的直径。最后,我们通过与其他方法的比较对算法进行了数值测试。