Feb, 2024

用于带有重和超重对称噪声的随机赌博机的快速 UCB 类型算法

TL;DR提出了基于一种不精确预算方法的智能多臂赌博机构建 UCB 型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法 Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到 O (logT√KTlogT) 的遗憾界,而不是当奖励分布满足 E [X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1]) 时,即表现得比普遍的重尾赌博机下界所假设的要好。此外,即使奖励分布没有期望,也能保持相同的界限,即当 α<0 时。