Feb, 2018

针对分段平稳赌博机的变化检测近乎最优自适应程序

TL;DR通过结合经典的 UCB 算法和简单的变化检测组件,我们提出了一种称为 M-UCB 的算法,可以在未知时间步骤中检测和适应变化,并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验,我们还展示了该算法的卓越性能。