BriefGPT.xyz
Sep, 2012
进一步优化 Thompson Sampling 算法的后悔上界
Further Optimal Regret Bounds for Thompson Sampling
HTML
PDF
Shipra Agrawal, Navin Goyal
TL;DR
使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的contestual bandits设置。
Abstract
thompson sampling
is one of the oldest heuristics for
multi-armed bandit problems
. It is a randomized algorithm based on
bayesian
ideas, a
→