联邦多臂老虎机

AAAIJan, 2021

Federated Multi-Armed Bandits

Chengshuai Shi, Cong Shen

TL;DR这篇论文提出了联邦多臂老虎机的新模型，并研究了两个具体的联邦多臂老虎机模型，提出了 Federated Double UCB 方法用于解决两个模型，理论与实验结果表明了该算法的效果和高效性。

Abstract

federated multi-armed bandits (FMAB) is a new bandit paradigm that parallels the federated learning (FL) framework in supervised learning. It is inspired by practical applications in →

federated multi-armed bandits federated learning cognitive radio recommender systems double ucb

发现论文，激发创造

拜占庭攻击下的联邦多臂老虎机

本文研究了存在拜占庭攻击的联邦多臂老虎机问题，并借鉴了鲁棒统计学中的方法提出了一种名为 Fed-MoM-UCB 的估算器，通过实验证明了其在面对拜占庭攻击时的有效性。

May, 2022

个性化联邦多臂老虎机

提出了个性化联邦多臂老虎机 (PF-MAB) 的总体框架，研究了一个灵活平衡泛化和个性化的混合老虎机学习问题，并提出了个性化联邦上置信上界 (PF-UCB) 算法，在理论分析和实验方面都取得了良好效果。

Feb, 2021

双重对抗联合赌博机

研究具有多个代理通过通信网络合作的新的非随机联邦多臂老虎机问题，其中危害的损失是由特指所有代理的每个时间步长和每个代理的每个手臂的损失的笨拙对手分配的。对于任何联邦老虎机算法，根据不同的设置提供遗憾下限，当代理有完整信息反馈或老虎机反馈时。在老虎机反馈设置下，提出一种接近最优的联邦老虎机算法 FEDEXP3，证明 FEDEXP3 可以保证不交换代理之间选择的手臂编号或损失序列的情况下得到次线性遗憾。还提供我们算法的数值评估以验证我们的理论结果，并证明其在合成和现实世界数据集上的有效性。

Jan, 2023

基于多臂赌博机的联邦学习客户端调度

本文提出了一个基于多臂赌博机策略的在线客户端调度（CS）框架，用于减少联邦学习中数百到数千个通信轮延迟。两个基于上置信区间（UCB）策略的 CS 算法（CS-UCB 和 CS-UCB-Q）被提出以应对不理想的本地数据集的非独立、不平衡属性和客户可用性的变化。本文还分析了 FL 训练的收敛性能，并且模拟结果验证了所提出的算法的有效性。

Jul, 2020

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

个性化联邦学习的高效群集选择：一种多臂赌博机方法

本文介绍了一种受多臂赌博机方法启发的动态上界置信度算法 (dUCB)，以解决个性化联邦学习中用户聚类的复杂性问题，特别在动态网络中，该算法平衡了探索与利用，使新用户能够有效地找到适合其数据分布的最佳聚类，并在各种情况下评估了算法的性能，展示了其在处理动态联邦学习场景中的有效性。

Oct, 2023

联邦语境强化学习中的公平性和隐私保证

在联邦环境中，考虑具有公平性和隐私保证的上下文多臂赌博机问题。我们提出了一种新的通信协议，使得联邦学习更加有效，并提供了确保差分隐私的算法。我们通过广泛的模拟实验证明了我们提出算法的有效性。

Feb, 2024

联邦神经遗传算法

本篇论文介绍了联邦神经 - 上置信区间算法 (FN-UCB)，该算法采用两个上界置信区间 (UCB) 的加权组合，以更好地利用联合设置，并证明了 FN-UCB 的累积后悔和通信轮数上限。

May, 2022

拜占庭弹性的分散式多臂赌博机

该研究通过开发一种完全分散的鲁棒上置信界算法，将信息混合步骤与不一致和极端值的截断步骤结合起来，以恢复分散合作多臂赌博中的有效行为，提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法，并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。

Oct, 2023

分散式随机多人多臂行走赌博机

提出了一种解决多人多臂赌博机问题的分布式算法，利用上置信区间和分布式优化技术，解决了现实世界应用中玩家仅能访问动态局部子集的问题，并获得了接近最优的后悔率。

Dec, 2022