拜占庭攻击下的联邦多臂老虎机

May, 2022

Federated Multi-Armed Bandits Under Byzantine Attacks

Ilker Demirel, Yigit Yildirim, Cem Tekin

TL;DR本文研究了存在拜占庭攻击的联邦多臂老虎机问题，并借鉴了鲁棒统计学中的方法提出了一种名为 Fed-MoM-UCB 的估算器，通过实验证明了其在面对拜占庭攻击时的有效性。

Abstract

multi-armed bandits (MAB) is a simple reinforcement learning model where the learner controls the trade-off between exploration versus exploitation to maximize its cumulative reward. Federated multi-armed bandits

multi-armed bandits federated learning byzantine attacks robust statistics regret

发现论文，激发创造

联邦多臂老虎机

这篇论文提出了联邦多臂老虎机的新模型，并研究了两个具体的联邦多臂老虎机模型，提出了 Federated Double UCB 方法用于解决两个模型，理论与实验结果表明了该算法的效果和高效性。

Jan, 2021

拜占庭弹性的分散式多臂赌博机

该研究通过开发一种完全分散的鲁棒上置信界算法，将信息混合步骤与不一致和极端值的截断步骤结合起来，以恢复分散合作多臂赌博中的有效行为，提高正常代理的表现。该算法在遗憾方面不劣于单代理 UCB1 算法，并且所有正常代理的累积遗憾严格优于非合作情况。实验证实了这一框架的优点。

Oct, 2023

个性化联邦多臂老虎机

提出了个性化联邦多臂老虎机 (PF-MAB) 的总体框架，研究了一个灵活平衡泛化和个性化的混合老虎机学习问题，并提出了个性化联邦上置信上界 (PF-UCB) 算法，在理论分析和实验方面都取得了良好效果。

Feb, 2021

具公平约束的组合式睡眠赌博机

提出针对多臂赌博机模型（MAB）的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡，同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法，可保证可行性最优，具有受时间平均后悔上限约束的时间复杂度，并进行了广泛的模拟以证明其有效性。

Jan, 2019

一种用于合作资源分配的联合在线不安分强盗框架

使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私保证，并在在线多用户多信道访问案例中展示了快速收敛率和比基准方法更好的性能。值得注意的是，该算法的样本复杂度随代理数量而减少。

Jun, 2024

多人赌博机问题再探

本文探讨了多层次反馈的多人多臂老虎机算法，并在不需要感知信息的情况下引入了一种被称为自私的有希望的启发式方法以适应与物联网网络的应用。研究结果显示，引入这些方法可以提高算法的性能并保证其渐近最优，降低拥堵的可能性。

Nov, 2017

多人多臂赌博机的分布式学习

本文研究了一种分散式多臂搏击器的问题，提出了一种达到最优秩序并确保公平性的分散式政策，并证明了其总遗憾增长速率的下限，这个问题在认知无线电网络，多通道通信系统，多智能体系统，网络搜索和广告以及社交网络等领域有潜在的应用。

Oct, 2009

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

多臂赌博机中的分布式合作决策

我们研究了在分布式协同决策中探索和利用的权衡在多臂赌博机问题的背景下。对于分布式协同 MAB 问题，我们设计了合作 UCB 算法，该算法包括两个交错的分布式过程:（i）运行共识算法来估计回报，以及（ii）基于上置信区间的启发式选择臂。我们进行了严格的合作 UCB 算法性能分析，并描述了通信图结构对群体决策性能的影响。

Dec, 2015

分散式随机多人多臂行走赌博机

提出了一种解决多人多臂赌博机问题的分布式算法，利用上置信区间和分布式优化技术，解决了现实世界应用中玩家仅能访问动态局部子集的问题，并获得了接近最优的后悔率。

Dec, 2022