AAAIFeb, 2020

概率无界对抗下的稳健随机赌博算法

TL;DR提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。