Aug, 2020

UCB 赌博机上的近最优对抗攻击

TL;DR我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵 UCB 原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个 loglogT 的因子,因此我们的攻击接近最优。