Sep, 2020

鲁棒异常值臂识别

TL;DR本文研究的是稳健异常臂识别问题,旨在通过对其奖励分布进行自适应抽样以识别奖励期望值与大多数值存在明显差异的臂,采用中位数和中位数绝对偏差计算异常值阈值是选择与平均值和标准偏差相比更为稳健的阈值方法,我们建议两个Δ-PAC算法用于ROAI,其包括第一种基于UCB的异常检测算法,并导出了它们的样本复杂度的上限。我们还证明了最坏情况下的下限,表明我们的上限通常无法改进。实验结果表明,与最先进的方法相比,我们的算法既稳健又更加高效。