Sep, 2012

进一步优化 Thompson Sampling 算法的后悔上界

TL;DR使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的contestual bandits设置。