IJCAIJul, 2019

对称性 alpha 稳定赌臂问题的汤普森采样

TL;DR该文章重新考虑了 Thompson Sampling 算法在来自对称 α- 稳定分布的奖励下的应用,提出了一个有效的后验推断框架,证明了两种算法的有限时间遗憾界,并通过一系列的实验展示了 Thompson Sampling 在此环境中更强的性能。