Oct, 2019
贝叶斯最佳臂识别的固定置信度保证
Fixed-Confidence Guarantees for Bayesian Best-Arm Identification
Xuedong Shang, Rianne de Heide, Emilie Kaufmann, Pierre Ménard, Michal Valko
TL;DR研究 Thompson Sampling 在 bandit 问题中的应用,提出一种新的取样规则 Top-Two Transportation Cost (T3C),结合贝叶斯停止规则进行采样复杂度分析,并给出 bandit 问题中 Gaussian 和 Bernoulli rewards 和共轭先验的后验收敛性结果。