Recent works on neural contextual bandits have achieved compelling
performances due to their ability to leverage the strong representation power
of neural networks (NNs) for reward prediction. Many applications o
研究联邦线性赌臂模型,其中 M 个客户端与中央服务器通信,解决具有有限对抗行动集的线性上下文赌臂问题。提出了 FedSupLinUCB 算法,并证明其实现了总遗憾 O (dT) 的性能边界,并分析了其通信成本。将 FedSupLinUCB 进一步扩展到方差自适应和对抗性破坏的情景,通过实验证明了该算法的有效性。