BriefGPT.xyz
Nov, 2016
线性汤普森抽样再探
Linear Thompson Sampling Revisited
HTML
PDF
Marc Abeille, Alessandro Lazaric
TL;DR
在随机线性赌博机问题中,我们为Thompson采样的后悔证明提供了一种替代证明方法。我们展示了后悔与目标函数的敏感性有关,并且选取与乐观参数相关的最优臂可以控制后悔,在具有固定概率为乐观的采样分布下来看,Thompson采样可以作为一种通用的随机化算法。我们还证明了这个理论可以轻松应用到正则化线性优化和广义线性模型问题中。
Abstract
We derive an alternative proof for the
regret
of
thompson sampling
(\ts) in the
stochastic linear bandit
setting. While we obtain a
→