BriefGPT.xyz
Dec, 2013
lil' UCB: 多臂赌博机的最优探索算法
lil' UCB : An Optimal Exploration Algorithm for Multi-Armed Bandits
HTML
PDF
Kevin Jamieson, Matthew Malloy, Robert Nowak, Sébastien Bubeck
TL;DR
在多臂老虎机游戏中,利用少量样本通过固定置信度水平下的置信区间,提出了一种最初的置信上界算法,该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子,同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限,从而进一步优化了算法,并通过模拟证明了算法的性能。
Abstract
The paper proposes a novel
upper confidence bound
(UCB) procedure for identifying the arm with the largest mean in a
multi-armed bandit game
in the
→