May, 2023

有限精度采样赌博机中的最佳臂识别

TL;DR研究了多臂赌博机问题中学习者在选择臂时精度受限的变体,并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置,并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。