具公平约束的组合式睡眠赌博机

Jan, 2019

Combinatorial Sleeping Bandits with Fairness Constraints

Fengjiao Li, Jia Liu, Bo Ji

TL;DR提出针对多臂赌博机模型（MAB）的新型组合睡眠 MAB 模型。通过扩展在线学习算法 UCB 以处理利用和探索之间的权衡，同时采用虚拟队列技术来正确处理公平性约束。最终提出一种名为 LFG 的新算法，可保证可行性最优，具有受时间平均后悔上限约束的时间复杂度，并进行了广泛的模拟以证明其有效性。

Abstract

The multi-armed bandit (MAB) model has been widely adopted for studying many practical optimization problems (network resource allocation, ad placement, crowdsourcing, etc.) with unknown parameters. The goal of the player here is to maximize the cumulative reward in the face of uncertainty. However, the basic MAB model neglects several important factors of t

multi-armed bandit model fairness constraints ucb algorithm online learning simulations

发现论文，激发创造

具有长期公平约束的在线不安定多臂赌博机

我们介绍了一种名为 RMAB-F 的新的多臂老虎机模型，它具有长期公平约束；并开发了一种名为 Fair-UCRL 的强化学习算法，证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。

Dec, 2023

针对不安定多臂赌博机的软公平性探讨

本文提出了一种 RMAB 的方法，称为 SoftFair，旨在强制实现软公平约束条件，该约束条件要求算法在选择 RMAB 中的每个项时都不能倾向于一个项，目的是避免在执行干预时出现某些区域或社区被忽略的情况。

Jul, 2022

实现随机多臂赌博问题的公正性

研究公平多臂老虎机问题中学习与公平之间的相互作用，通过特定向量表示公平性约束，定义一个公平感知的后悔，通过两个参数刻画一个 Fair-SMAB 算法类，并提供一个公平保证，无论学习算法的选择是什么，都可以持续地适用。

May, 2019

联邦语境强化学习中的公平性和隐私保证

在联邦环境中，考虑具有公平性和隐私保证的上下文多臂赌博机问题。我们提出了一种新的通信协议，使得联邦学习更加有效，并提供了确保差分隐私的算法。我们通过广泛的模拟实验证明了我们提出算法的有效性。

Feb, 2024

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

在线多臂赌博机的曝光公平性

通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。

Feb, 2024

拜占庭攻击下的联邦多臂老虎机

本文研究了存在拜占庭攻击的联邦多臂老虎机问题，并借鉴了鲁棒统计学中的方法提出了一种名为 Fed-MoM-UCB 的估算器，通过实验证明了其在面对拜占庭攻击时的有效性。

May, 2022

具有一般奖励函数的组合多臂赌博机

本文研究了随机组合多臂赌博机框架，提出了一种名为 SDCB 的新算法，该算法估计底层随机变量的分布和它们的随机显著性置信区间，并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾，并将所得结果应用于 $K$-MAX 问题。

Oct, 2016

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

成本补贴的多臂老虎机

本研究考虑了一种新颖的多臂赌博机问题（MAB with cost subsidy），为了优化累积的成本和收益，学习机构必须支付选择的手臂成本，针对这种问题，我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟，最后建立了任何线上学习算法的性能下界，为实际应用不同算法提供了实用性建议。

Nov, 2020