BriefGPT.xyz
Jul, 2024
自适应平滑非平稳赌博机
Adaptive Smooth Non-Stationary Bandits
HTML
PDF
Joe Suk
TL;DR
我们研究了一个K臂非平稳赌博模型,在该模型中,奖励将平滑变化,其变化由时间的函数的H"{o}lder类参数化。我们首先在所有K,β,λ的情况下确定了最小化极小动态后悔速率。接下来,我们表明此最优动态后悔可以自适应地实现,而无需了解β,λ。因此,我们的工作解决了文献中不同线索所提出的未解问题。
Abstract
We study a $K$-armed
non-stationary bandit
model where
rewards
change smoothly, as captured by H\"{o}lder class assumptions on
rewards
as
→