We provide two distributed confidence ball algorithms for solving linear
bandit problems in peer to peer networks with limited communication
capabilities. For the first, we assume that all the peers are solving the same
linear bandit problem, and prove that our algorithm achieves the o
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表明,所提出的算法在完全异步环境中实现了接近最优的样本复杂度和高效的通信成本。此外,基于合成和现实世界数据的实验结果从经验上阐明了所提出算法的有效性和通信成本效益。