linear contextual bandit is a popular online learning problem. It has been
mostly studied in centralized learning settings. With the surging demand of
large-scale decentralized model learning, e.g., federated learning
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表明,所提出的算法在完全异步环境中实现了接近最优的样本复杂度和高效的通信成本。此外,基于合成和现实世界数据的实验结果从经验上阐明了所提出算法的有效性和通信成本效益。
研究联邦线性赌臂模型,其中 M 个客户端与中央服务器通信,解决具有有限对抗行动集的线性上下文赌臂问题。提出了 FedSupLinUCB 算法,并证明其实现了总遗憾 O (dT) 的性能边界,并分析了其通信成本。将 FedSupLinUCB 进一步扩展到方差自适应和对抗性破坏的情景,通过实验证明了该算法的有效性。