AAAINov, 2019
奖励漂移下的多臂赌博机激励探索
Incentivized Exploration for Multi-Armed Bandits under Reward Drift
Zhiyuan Liu, Huazheng Wang, Fan Shen, Kai Liu, Lijun Chen
TL;DR本文研究了多臂赌博机问题中的激励探索方法,分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿,在激励探索方面是有效的。