Jun, 2019

MaxGap Bandit:适应性算法用于近似排名

TL;DR本文研究自适应地从 K 个分布(臂)中抽样,以确定任意两个相邻均值之间的最大差距,即最大间隙赌博机问题。作者提出消除与 UCB 风格的算法,并证明了它们是极小化的最优解。实验结果表明,UCB 风格的算法需要的样本数量比非自适应抽样少 6-8 倍。