本文提出了针对均值 - 方差 MAB 问题的 Thompson 抽样算法,并在更少的假设条件下提供了高斯和伯努利 bandit 的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。
Feb, 2020
通过 Mixture Adaptive Design (MAD) 实验设计,与用户选择的多臂赌博算法结合 Bernoulli 设计,能够在几乎任何赌博算法中对平均处理效果 (ATE) 进行连续推论,保证统计有效性和功率,提高 MAB 实验中 ATE 推论的覆盖率和功效。
Nov, 2023
本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量,并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现,且模型特定和模型无关的遗憾都有下界。
Apr, 2016
以多臂赌博问题为数学模型,研究最优分布的采样复杂度及 PRISM 算法,发现自适应探索程序比简单的非自适应程序具有更好的采样复杂度,对于许多问题实例,非自适应程序所需的增加采样复杂度是臂数的一个多项式因子。
Jun, 2013
本文主要研究的问题是:如何在样本预算有限的情况下,统一地估计多个分布的平均值。通过采集数量,可以根据它们的方差为已知来设计最优的采样策略,但在更实际的情况下,需要设计自适应采样策略来选择要采样的分布(根据先前观察到的样本)。文章描述了两种策略,根据样本数据以高概率上限置信界为比例,拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。
Jul, 2015
本论文通过理论分析,提出了一种基于 M - 估计量的方法,利用自适应算法(包括习得算法和最大似然算法)处理 bandit 算法采集的数据,进而构建了一种渐进有效的置信区间方法,可用于许多统计推断目标。
Apr, 2021
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
Sep, 2012
本研究探讨在随机的多臂老虎机决策框架下的公平性问题,采用 “相似个体应受到相似对待” 的公平性框架,使用平滑度约束和公平性遗憾度量实现公平性,研究表明 Thompson sampling 等算法可以实现平滑公平性,且在公平性遗憾上有 $ ilde {O}((kT)^{2/3})$ 的上界。
Jul, 2017
本文研究了随机预算多臂赌博问题,并提出了一种名为 ω-UCB 的新的上置信界(UCB)采样策略,该策略使用了不对称置信区间,并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。
Jun, 2023
通过建立公平的多臂赌博机框架,考虑离线和在线情形中的不公平问题,本论文证明了算法在单次选取情况下的次线性公平后悔度,并在实证中展示了在多次选取场景中算法的良好表现。
Feb, 2024