May, 2014

Lipschitz Bandits: 遗憾下限和最优算法

TL;DR研究了随机多臂赌博问题中期望奖励是武器的Lipschitz函数的情况,提出了两种算法OSLB和CKL-UCB,并衍生出上限,针对连续武器集合的情况建议首先离散化行动空间再应用算法,同时也考虑到了具有类似性质的背景下文本字形赌博。