Jul, 2024

自适应平滑非平稳赌博机

TL;DR我们研究了一个K臂非平稳赌博模型,在该模型中,奖励将平滑变化,其变化由时间的函数的H"{o}lder类参数化。我们首先在所有K,β,λ的情况下确定了最小化极小动态后悔速率。接下来,我们表明此最优动态后悔可以自适应地实现,而无需了解β,λ。因此,我们的工作解决了文献中不同线索所提出的未解问题。