Feb, 2024

用于带有重和超重对称噪声的随机赌博机的快速UCB类型算法

TL;DR提出了基于一种不精确预算方法的智能多臂赌博机构建UCB型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到O(logT√KTlogT)的遗憾界,而不是当奖励分布满足E[X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1])时,即表现得比普遍的重尾赌博机下界所假设的要好。此外,即使奖励分布没有期望,也能保持相同的界限,即当α<0时。