Oct, 2019

任意延迟下对抗性赌博机的最优算法

TL;DR提出一个新的算法,针对有无限延迟的对抗多臂老虎机问题,该算法是基于一种新型的混合规则制定的,采用 Follow the Regularized Leader (FTRL) 框架,可实现 $O (\sqrt {kn}+\sqrt {D\log (k)})$ 的遗憾保证,并且不需要预先了解 $n$ 或 $D$, 还提出了一种新的调优算法,遗憾保证可达到 $O (\sqrt {kn}+\min_{S}|S|+\sqrt {D_{\bar S}\log (k)})$,用于解决了 Thune 等人 (2019) 提出的未解决问题。