Oct, 2019

贝叶斯最佳臂识别的固定置信度保证

TL;DR研究 Thompson Sampling 在 bandit 问题中的应用,提出一种新的取样规则 Top-Two Transportation Cost (T3C),结合贝叶斯停止规则进行采样复杂度分析,并给出 bandit 问题中 Gaussian 和 Bernoulli rewards 和共轭先验的后验收敛性结果。