Apr, 2013

Thompson 抽样的无先验和有先验依赖的遗憾界

TL;DR研究具有奖励分布先验分布的随机多臂赌博问题,证明 Thompson Sampling 算法在没有先验分布时具有最优的贝叶斯遗憾上界,并在 Bubeck 等人的先验设置下证明了算法的一致界限,并与 Audibert 和 Bubeck [2009] 和 Russo 和 Roy [2013] 的技术方法有关。