AAAINov, 2019

奖励漂移下的多臂赌博机激励探索

TL;DR本文研究了多臂赌博机问题中的激励探索方法,分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿,在激励探索方面是有效的。