The demand for collaborative and private bandit learning across multiple
agents is surging due to the growing quantity of data generated from
distributed systems. federated bandit learning has emerged as a promis
该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架,该框架将任何具有复杂度为 O (psi/epsilon^beta)(其中省略了对数计算,psi 是一个函数,beta 是常数)的离线单代理(alpha-epsilon)逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法,并保证了与时间跨度 T 的次线性增长,且随着通信代理数量的增加而线性加速。此外,该算法还具有高效的通信特性,只需要亚线性数量的通信轮次,通过将该框架成功应用于在线随机子模块最大化,并实现了第一个单代理和多代理设置的结果,以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性,即使在单代理场景中也是如此。
我们研究了多臂赌博机和线性赌博机的联邦纯探索问题,在该问题中, M 个代理通过与中央服务器通信来合作地识别最佳臂。为了增强算法对延迟和代理不可用性的鲁棒性,我们提出了第一个用于固定置信度的联邦异步多臂赌博机和线性赌博机算法。我们的理论分析表明,所提出的算法在完全异步环境中实现了接近最优的样本复杂度和高效的通信成本。此外,基于合成和现实世界数据的实验结果从经验上阐明了所提出算法的有效性和通信成本效益。