ICMLJan, 2023

平滑的非平稳赌博机

TL;DR本文研究应用于在线决策中的两臂赌博机问题,其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离,提出了一种策略以 T^(3/5)遗憾为代价。同时,我们为任何整数 β≥1 证明了一个 T^(β+1)/2β+1 的下限,与 β=2 的上限相匹配。