ICMLMay, 2014

单模臂:遗憾下限和最优算法

TL;DR研究了随机多臂老虎机问题,通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况,分别提出了 OSUB 和 UCB 算法,并得到了渐进的上下界和提高性能的实验结果。