Jun, 2015
多组玩法随机多臂赌博问题中 Thompson 抽样的最优遗憾分析
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed
Bandit Problem with Multiple Plays
TL;DR本文提出了多次试验下的Thompson sampling方法(MP-TS)并对其进行了后效分析,证明了其具有与Anantharam等人提供的最佳后悔下界相匹配的最优后悔上界,并通过计算机模拟进行了验证。我们还提出了MP-TS的改进版本,并表明其具有更好的实际效果。