Aug, 2024

使用上置信界算法进行推断

TL;DR本研究解决了多臂老虎机问题中上置信界(UCB)算法的渐近行为及其对后续推断任务的影响。我们提出,当UCB算法满足某些稳定性条件时,可有效缓解顺序数据收集带来的挑战,发现UCB算法下样本均值呈渐近正态分布,表明算法在处理手臂数量随抽取次数增长时依然保持稳定,并且近似最优手臂数量相对较多。