Mar, 2024

非平稳线性赌博机的方差依赖遗憾界

TL;DR通过利用奖励分布的方差和总变化预算,我们提出了Restarted WeightedOFUL+和Restarted SAVE+两种新算法,它们在非平稳随机线性赌博机问题中能够取得更紧密的遗憾上界,尤其在奖励的总方差远小于轮数K时,超过了现有工作的性能。