零膨胀臂

Dec, 2023

Zero-Inflated Bandits

Haoyu Wei, Runzhe Wan, Lei Shi, Rui Song

TL;DR对于稀疏非零奖励的赌博机实际应用，本文引入了零膨胀赌博机的研究，将奖励模型化为经典的半参数分布，设计了适用于各种奖励分布的 UCB 和 TS 算法，并利用理论和实验研究验证了其超出一般 sub-Gaussian 假设的性能表现能达到速率最优的遗憾界。

Abstract

Many real applications of bandits have sparse non-zero rewards, leading to slow learning rates. A careful distribution modeling that utilizes problem-specific structures is known as critical to estimation efficiency in the statistics literature, yet is under-explored in →

bandits zero-inflated bandits reward distributions upper confidence bound (ucb)thompson sampling (ts)

发现论文，激发创造

有重尾巴的赌徒

本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题，通过定义基于更精细的估计器的采样策略，如截断经验均值、Catoni 的 M - 估计和均值中位数估计器，证明了二阶矩（有限方差）足以获得与次高斯奖励分布同阶的悔恨界。

Sep, 2012

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

核化多臂赌博机

本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB（IGP-UCB）和 GP-Thomson 采样（GP-TS），并给出了相应的遗憾边界，在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间（RKHS）时，边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中，突出了所提出策略的优势。

Apr, 2017

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

多臂赌博机问题：一种有效的非参数解决方案

该研究提出了高效的非参数性多臂赌博机过程，旨在解决机器学习算法和数据分析中的应用问题，并分析了参数和非参数设置下的 UCB 过程的修改版本及非效率性。

Mar, 2017

自举式上置信域界限算法

本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法，并进一步将二阶校正融入该算法，在理论上，我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界，数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔

Jun, 2019

非静态贪婪问题的折扣汤普森采样

本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors，用于解决非平稳多臂赌博机问题，并分析了算法在不同情况下的表现和 upper bound of regret。

May, 2023

非周期性不安定赌博机中的汤普森抽样

本文研究了在未知奖励分布下使用 Thompson 采样算法来解决不断变化的赌博机问题，证明了一种子线性的，O (sqrt (T) log T) 的遗憾上限，并将算法测试在了一个动态信道接入问题的模拟中，实证结果与理论上限一致。

Oct, 2019

重尾臂赌博机中实现全自适应遗憾最小化

学习重尾分布下的遗憾最小化问题，引入自适应算法并提供适应性鲁棒 UCB 方法，以最小化重尾 MAB 问题的遗憾。

Oct, 2023

概率无界对抗下的稳健随机赌博算法

提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法，并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。

Feb, 2020