Jun, 2024

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

TL;DR本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。