Oct, 2024

关于赖氏多臂赌博机中的上置信界

TL;DR本文聚焦于赖子在多臂赌博机领域的开创性贡献,提出了对于高斯奖励的上置信界的尖锐非渐近后悔界限,解决了研究中对常量探索级别的欠缺。同时,我们为赖1987年提出的基于样本量递减的探索函数的上置信界建立了新的非渐近后悔界限,结果显示出与赖-罗宾斯下界相匹配的常数,为多臂赌博机的研究提供了新的视角。