NIPSOct, 2016

具有一般奖励函数的组合多臂赌博机

TL;DR本文研究了随机组合多臂赌博机框架,提出了一种名为 SDCB 的新算法,该算法估计底层随机变量的分布和它们的随机显著性置信区间,并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾,并将所得结果应用于 $K$-MAX 问题。