May, 2019

分布相关和时间均匀的分段 i.i.d. 摇臂界

TL;DR本文研究了随机多武器歹徒问题的设置,在未知变化点的情况下,将奖励分配为分段独立同分布且有界。我们集中研究了所有武器同时发生更改的情况,并针对涉及变化量(∆{^{chg}_{i,g}})和最优间隙(∆{^{opt}_{i,g}})的依赖间隙(而不仅是间隙独立的间隙)后悔边界。在不知道变化点的情况下,我们介绍了两种UCB策略的自适应性,并采用扫描统计技术,以积极检测变化点。