Oct, 2013

上下文广告带中的广义汤普森采样

TL;DR本文提出一种名为广义 Thompson Sampling 的新算法,将其作为专家学习框架下的一种启发式算法,其包括 Thompson Sampling 作为其特殊情况,并派生了一般性遗憾界,将其应用到广泛的情境性算法中,量化“先验”分布对遗憾界的影响。