Oct, 2019

贝叶斯最佳臂识别的固定置信度保证

TL;DR研究Thompson Sampling在bandit问题中的应用,提出一种新的取样规则Top-Two Transportation Cost (T3C),结合贝叶斯停止规则进行采样复杂度分析,并给出bandit问题中Gaussian和Bernoulli rewards和共轭先验的后验收敛性结果。