多臂老虎机样本均值的偏差、风险和一致性

Feb, 2019

多臂老虎机样本均值的偏差、风险和一致性

On the bias, risk and consistency of sample means in multi-armed bandits

Jaehyeok Shin, Aaditya Ramdas, Alessandro Rinaldo

TL;DR这篇文章系统地探讨了多臂老虎机实验中样本平均数的偏差、风险和一致性，并提出了一种有效的样本量概念来限制样本平均数在适当损失函数下的风险。

Abstract

The sample mean is among the most well studied estimators in statistics, having many desirable properties such as unbiasedness and consistency. However, when analyzing data collected using a multi-armed bandit (M

multi-armed bandit sample mean bias selection bias risk

发现论文，激发创造

均值方差赌博机的汤普森采样算法

本文提出了针对均值 - 方差 MAB 问题的 Thompson 抽样算法，并在更少的假设条件下提供了高斯和伯努利 bandit 的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。

Feb, 2020

一种多臂赌博机的随时有效因果推断的实验设计

通过 Mixture Adaptive Design (MAD) 实验设计，与用户选择的多臂赌博算法结合 Bernoulli 设计，能够在几乎任何赌博算法中对平均处理效果 (ATE) 进行连续推论，保证统计有效性和功率，提高 MAB 实验中 ATE 推论的覆盖率和功效。

Nov, 2023

风险规避的均值方差多臂赌博机问题

本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量，并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现，且模型特定和模型无关的遗憾都有下界。

Apr, 2016

寻找众数中的最大平均值

以多臂赌博问题为数学模型，研究最优分布的采样复杂度及 PRISM 算法，发现自适应探索程序比简单的非自适应程序具有更好的采样复杂度，对于许多问题实例，非自适应程序所需的增加采样复杂度是臂数的一个多项式因子。

Jun, 2013

多臂赌博机中主动学习的上置信界算法

本文主要研究的问题是：如何在样本预算有限的情况下，统一地估计多个分布的平均值。通过采集数量，可以根据它们的方差为已知来设计最优的采样策略，但在更实际的情况下，需要设计自适应采样策略来选择要采样的分布（根据先前观察到的样本）。文章描述了两种策略，根据样本数据以高概率上限置信界为比例，拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。

Jul, 2015

利用 M - 估计器对自适应收集数据进行统计推断

本论文通过理论分析，提出了一种基于 M - 估计量的方法，利用自适应算法（包括习得算法和最大似然算法）处理 bandit 算法采集的数据，进而构建了一种渐进有效的置信区间方法，可用于许多统计推断目标。

Apr, 2021

有重尾巴的赌徒

本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题，通过定义基于更精细的估计器的采样策略，如截断经验均值、Catoni 的 M - 估计和均值中位数估计器，证明了二阶矩（有限方差）足以获得与次高斯奖励分布同阶的悔恨界。

Sep, 2012

汇集式赌博机中的校准公正

本研究探讨在随机的多臂老虎机决策框架下的公平性问题，采用 “相似个体应受到相似对待” 的公平性框架，使用平滑度约束和公平性遗憾度量实现公平性，研究表明 Thompson sampling 等算法可以实现平滑公平性，且在公平性遗憾上有 $ ilde {O}((kT)^{2/3})$ 的上界。

Jul, 2017

具有不对称置信区间的预算多臂赌博机

本文研究了随机预算多臂赌博问题，并提出了一种名为 ω-UCB 的新的上置信界（UCB）采样策略，该策略使用了不对称置信区间，并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。

Jun, 2023

在线多臂赌博机的曝光公平性

通过建立公平的多臂赌博机框架，考虑离线和在线情形中的不公平问题，本论文证明了算法在单次选取情况下的次线性公平后悔度，并在实证中展示了在多次选取场景中算法的良好表现。

Feb, 2024