多臂赌博机中的通用异常值检测

KDDJul, 2020

Generic Outlier Detection in Multi-Armed Bandit

Yikun Ban, Jingrui He

TL;DR本文研究在多臂老虎机中检测异常臂的问题，并提出了一个名为 GOLD 的新型拉动算法，通过实时构建邻域图形的方式实现对可能存在的异常臂的鲁棒识别，实验结果表明该算法相对于最先进的技术可平均节省 83％的探索成本，并在准确性上达到了 98％的表现。

Abstract

In this paper, we study the problem of outlier arm detection in multi-armed bandit settings, which finds plenty of applications in many high-impact domains such as finance, healthcare, and online advertising. For this problem, a learner aims to identify the arms whose expected rewards

outlier arm detection multi-armed bandit settings reward identification gold pulling algorithm exploration cost

发现论文，激发创造

多臂赌博机中最优臂选取的顺序消除算法

研究了多臂赌博机中的最佳臂辨识问题，提出了一个基于顺序淘汰算法的通用框架，并基于采样机制和每轮淘汰臂数量提出了性能评估指标，设计了一种按剩余臂数的非线性函数划分预算的算法，能够在纯探索场景下获得改进的理论保证和实验性能。

Sep, 2016

广义线性赌博机中最佳臂的识别

针对广义线性赌博机的最佳臂识别问题，提出了第一个算法，并在模拟中评估其性能和采样效率。该算法旨在最小化确定足够接近最佳臂所需的臂拉取次数。

May, 2019

鲁棒异常值臂识别

本文研究的是稳健异常臂识别问题，旨在通过对其奖励分布进行自适应抽样以识别奖励期望值与大多数值存在明显差异的臂，采用中位数和中位数绝对偏差计算异常值阈值是选择与平均值和标准偏差相比更为稳健的阈值方法，我们建议两个 Δ-PAC 算法用于 ROAI，其包括第一种基于 UCB 的异常检测算法，并导出了它们的样本复杂度的上限。我们还证明了最坏情况下的下限，表明我们的上限通常无法改进。实验结果表明，与最先进的方法相比，我们的算法既稳健又更加高效。

Sep, 2020

污染老虎机的最佳臂识别

本文在稳健统计学的背景下研究主动学习。具体而言，我们为受到污染的赌臂问题提出了一个变体，其中每个臂的拉动具有生成任意污染分布样本的概率 ε，而不是真正的基础分布。我们开发了紧凑的、非渐进的样本复杂度界限来高概率地估算受到污染的样本的前两个鲁棒矩（中位数和中位数绝对偏差）。利用这些结果，我们将几个经典的最佳臂识别算法适应于受到污染的赌臂环境，并为我们的问题导出样本复杂度上限。最后，我们提供了关于样本复杂度（最多小的对数因子）的匹配信息论下界。

Feb, 2018

批处理多臂赌博机问题中的最佳臂识别

最近在许多实际场景中出现了多臂赌博问题，其中由于代理人等待反馈的时间有限，必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时，问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线性规划框架，可以将不同理论设置中的目标纳入其中，以便在最佳臂识别中使用。线性规划导致了一个两阶段算法，可以实现良好的理论性能。通过数值研究，我们证明了该算法与某些 UCB 型或 Thompson 抽样方法相比也具有良好的性能。

Dec, 2023

自适应双探索权衡策略用于异常检测

本文研究一类基于阈值的异常检测问题，提出双重探索算法，通过构建自适应置信区间和自动平衡各臂探索与阈值探索的权衡，实现更高效的异常检测。实验表明本算法在合成和真实数据集上均表现出色。

May, 2020

有限精度采样赌博机中的最佳臂识别

研究了多臂赌博机问题中学习者在选择臂时精度受限的变体，并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置，并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。

May, 2023

最大 - 最小分组赌博机

介绍了一种多臂赌博机问题，称为最大最小分组赌博机问题，其中将赌臂分组，并旨在找到最差赌臂平均回报最高的组；提出两种基于连续淘汰和鲁棒优化的算法，并导出保证找到最优或接近最优组的样本数的上界，以及一个独立于算法的下界。探讨了各种相关情况下上下限的紧度以及导出统一紧限的困难。

Nov, 2021

通过赌博反馈进行良好的手臂识别

提出了一种新的随机多臂老虎机问题称为好臂识别，在解决好臂识别过程中面临独特的置信度的探索 - 利用困境并为此提出了一种算法以最小化每个过程的样本数量，该算法在样本复杂度上达到了理论下限并已通过实验得到验证。

Oct, 2017

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012