Dec, 2011
随机多臂赌博问题的遗憾下界和拓展上置信界策略
Regret lower bounds and extended Upper Confidence Bounds policies in stochastic multi-armed bandit problem
Antoine Salomon, Jean-Yves Audibert, Issam El Alaoui
TL;DR通过对经典多臂赌博机(Stochastic Multi-Armed Bandit)的研究,探讨了两种不同的准则下存在的遗憾下界。同时,研究了 UCB 等算法的变体,证明了这种情况下不可能设计一种自适应的策略来选择最优算法。