Jun, 2019

自举式上置信域界限算法

TL;DR本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法,并进一步将二阶校正融入该算法,在理论上,我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界,数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔