Dec, 2023

零膨胀臂

TL;DR对于稀疏非零奖励的赌博机实际应用,本文引入了零膨胀赌博机的研究,将奖励模型化为经典的半参数分布,设计了适用于各种奖励分布的 UCB 和 TS 算法,并利用理论和实验研究验证了其超出一般 sub-Gaussian 假设的性能表现能达到速率最优的遗憾界。