BriefGPT.xyz
Feb, 2011
有界随机赌博机及其扩展的KL-UCB算法
The KL-UCB Algorithm for Bounded Stochastic Bandits and Beyond
HTML
PDF
Aurélien Garivier, Olivier Cappé
TL;DR
本文针对随机赌博问题,提出了一种在线动态索引策略KL-UCB算法,并通过有界回报和伯努利回报两个方面的研究证明了其优越性和适用性,同时展示了比较实验结果,在时间短的情况下依然表现良好,且优于其他算法。
Abstract
This paper presents a
finite-time analysis
of the
kl-ucb algorithm
, an online, horizon-free index policy for
stochastic bandit problems
. W
→