寻找众数中的最大平均值

Jun, 2013

On Finding the Largest Mean Among Many

Kevin Jamieson, Matthew Malloy, Robert Nowak, Sebastien Bubeck

TL;DR以多臂赌博问题为数学模型，研究最优分布的采样复杂度及PRISM算法，发现自适应探索程序比简单的非自适应程序具有更好的采样复杂度，对于许多问题实例，非自适应程序所需的增加采样复杂度是臂数的一个多项式因子。

Abstract

sampling from distributions to find the one with the largest mean arises in a broad range of applications, and it can be mathematically modeled as a multi-armed bandit problem in which each distribution is associ

发现论文，激发创造

多臂赌博机模型中最佳臂识别的复杂度

本文介绍了多臂老虎机模型的性能表现，并提供了特定情况下的下限和匹配算法。此外，还提供了改进的序贯停止规则以及两个独立的技术结果。

Jul, 2014

关于最佳臂识别的最优样本复杂度

研究最优臂辨识问题，发现新算法和上下限优化，并提出一个新的关于最优样本复杂度的猜想。

Nov, 2015

针对 Top-k 臂选择的近乎最佳样本复杂度界限

本文探讨了Best-$k$-Arm问题的样本复杂性边界，提出了一种新颖的复杂度度量方法和基于消除的算法，并展示了该算法的实例-边界下限和状态-界限的严格支配能力。

Feb, 2017

组合型纯探索的近最优采样算法

本文研究了随机多臂老虎机的组合纯探索问题，提出了一种新的样本复杂度的下界和一种新的抽样算法，并用于凸优化的分离与优化等价和近似 Pareto 曲线等技术改进了多个普遍应用的组合约束条件的纯探索问题的已有方法。此外，我们还提出了更通用的问题，并针对其提供了样本复杂度的上下界。

Jun, 2017

污染老虎机的最佳臂识别

本文在稳健统计学的背景下研究主动学习。具体而言，我们为受到污染的赌臂问题提出了一个变体，其中每个臂的拉动具有生成任意污染分布样本的概率 ε，而不是真正的基础分布。我们开发了紧凑的、非渐进的样本复杂度界限来高概率地估算受到污染的样本的前两个鲁棒矩（中位数和中位数绝对偏差）。利用这些结果，我们将几个经典的最佳臂识别算法适应于受到污染的赌臂环境，并为我们的问题导出样本复杂度上限。最后，我们提供了关于样本复杂度（最多小的对数因子）的匹配信息论下界。

Feb, 2018

多臂老虎机样本均值的偏差、风险和一致性

这篇文章系统地探讨了多臂老虎机实验中样本平均数的偏差、风险和一致性，并提出了一种有效的样本量概念来限制样本平均数在适当损失函数下的风险。

Feb, 2019

MaxGap Bandit：适应性算法用于近似排名

本文研究自适应地从 K 个分布（臂）中抽样，以确定任意两个相邻均值之间的最大差距，即最大间隙赌博机问题。作者提出消除与UCB风格的算法，并证明了它们是极小化的最优解。实验结果表明，UCB风格的算法需要的样本数量比非自适应抽样少6-8倍。

Jun, 2019

鉴别好臂之真实样本复杂性

提出多臂老虎机算法中两个问题：如何识别平均值与最大平均值相差小于给定阈值的武器和如何识别平均值大于给定阈值的k支武器。在此基础上，给出了形式化的定义，匹配了样本复杂度的下界，并提供了几乎匹配上界的具体实用算法。

Jun, 2019

线性赌博机中的最优臂识别

本文研究了随机线性武装的固定置信度下的最佳武器识别问题，目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法，其采样复杂度与已知的特定实例下界匹配，在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则，而且可以很少更新而不影响其理论保证。此外，与现有的最佳武器识别策略不同，我们的算法使用的停止规则不依赖于武器数量。实验结果表明，我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。

Jun, 2020

固定预算下的最优臂识别：大偏差视角

通过大偏差原理，我们在适应性算法中建立了样本抽取比例与样本奖励之间的联系，从而改进了现有算法并设计了新算法，我们证明了新算法的性能优于现有算法，包括对众多抽样的广泛实验证实了这一观察结果。

Dec, 2023