Sep, 2023
CRIMED: 带有无界随机失效的赌博机遗憾的上下界
CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded Stochastic Corruption
Shubhada Agrawal, Timothée Mathieu, Debabrota Basu, Odalric-Ambrym Maillard
TL;DR在多臂赌博机设置中,我们研究了最小化后悔问题,并引入了具有任意损坏的情况。我们对于某个给定的赌博机分布族,建立了与问题相关的后悔下界,并提出了 CRIMED 算法来实现该下界的精确后悔值,在已知方差的高斯分布赌博机环境下达到了渐近最优。此外,我们还对 CRIMED 的有限样本后悔性能进行了分析。