一种用于合作资源分配的联合在线不安分强盗框架

Jun, 2024

一种用于合作资源分配的联合在线不安分强盗框架

A Federated Online Restless Bandit Framework for Cooperative Resource Allocation

Jingwen Tong, Xinran Li, Liqun Fu, Jun Zhang, Khaled B. Letaief

TL;DR使用联邦学习范式，本研究提出了一种基于 Federated Thompson Sampling-enabled Whittle Index (FedTSWI) 算法的合作式资源分配问题解决方案，该算法在通信和计算效率上具有较高水平并提供隐私保证，并在在线多用户多信道访问案例中展示了快速收敛率和比基准方法更好的性能。值得注意的是，该算法的样本复杂度随代理数量而减少。

Abstract

restless multi-armed bandits (RMABs) have been widely utilized to address resource allocation problems with Markov reward processes (MRPs). Existing works often assume that the dynamics of MRPs are known prior, which makes the RMAB problem solvable from an optimization perspective. Nev

restless multi-armed bandits cooperative resource allocation unknown system dynamics federated learning thompson sampling

发现论文，激发创造

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

联邦组合多智能体多臂赌博机

该论文介绍了一个用于在线组合优化和有限带反馈的联邦学习框架，该框架将任何具有复杂度为 O (psi/epsilon^beta)（其中省略了对数计算，psi 是一个函数，beta 是常数）的离线单代理（alpha-epsilon）逼近算法转化为具有 m 个通信代理和 alpha 遗憾度的在线多代理算法，并保证了与时间跨度 T 的次线性增长，且随着通信代理数量的增加而线性加速。此外，该算法还具有高效的通信特性，只需要亚线性数量的通信轮次，通过将该框架成功应用于在线随机子模块最大化，并实现了第一个单代理和多代理设置的结果，以及恢复了专门的单代理理论保证。我们还通过对随机数据摘要问题的实证验证来展示所提出的框架的有效性，即使在单代理场景中也是如此。

May, 2024

有限时间和流式无休止多臂赌博机问题的高效算法

提出了 “Streaming Bandits” 框架，该框架为不安宁的多臂赌博机问题，其中异构臂可以在有限寿命后进入和离开系统。该框架自然地解决了卫生干预计划问题，同时提供了一个新颖而高效的算法来计算 Whittle 索引解。

Mar, 2021

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

乐观 Whittle 指数策略：动态赌博机的在线学习

该研究提出了一种基于 Whittle 指数策略的在线学习算法 UCWhittle，使用上限置信度方法学习转移动力学来解决具有未知状态转移的 RMAB 问题，该算法在三个不同领域均表现出比现有在线学习算法更好的性能。

May, 2022

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

拜占庭攻击下的联邦多臂老虎机

本文研究了存在拜占庭攻击的联邦多臂老虎机问题，并借鉴了鲁棒统计学中的方法提出了一种名为 Fed-MoM-UCB 的估算器，通过实验证明了其在面对拜占庭攻击时的有效性。

May, 2022

多臂赌博机中的可扩展决策焦点学习及其在母婴健康中的应用

本文提出了一种新颖的用于决策焦点学习的方法，该方法直接训练预测模型以最大化 Whittle 指数解的质量，应用于不确定武装转移动态但已知相关武装特征的不安静多臂老虎机（RMAB）问题，并提高了在 RMAB 问题中的可扩展性，并将算法应用于先前收集的母婴健康数据集，展示了其性能。

Feb, 2022

多用户多臂老虎机用于协调频谱接入

提出了两种多用户多臂赌博机算法框架，分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下，通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误，并能够处理用户数量随时间改变的动态问题。

Jul, 2018

在线多臂赌博机的曝光公平性

通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。

Feb, 2024