May, 2014

Lipschitz Bandits: 遗憾下限和最优算法

TL;DR研究了随机多臂赌博问题中期望奖励是武器的 Lipschitz 函数的情况,提出了两种算法 OSLB 和 CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。