AAAIFeb, 2020
概率无界对抗下的稳健随机赌博算法
Robust Stochastic Bandit Algorithms under Probabilistic Unbounded Adversarial Attack
Ziwei Guan, Kaiyi Ji, Donald J Bucci Jr, Timothy Y Hu, Joseph Palombo...
TL;DR提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。