Apr, 2024

广义线性背景臂机情境下的有限适应度最优遗憾

TL;DR我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数kappa的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法B-GLinCB,使用Ω(log(log T))批次,遗憾的规模为Φ(O(√T)).此外,我们建立了我们的罕见切换算法RS-GLinCB最多更新策略Φ(O(log^2 T))次,并实现了Φ(O(√T))的遗憾。我们消除广义线性情景赌博对kappa的依赖的方法可能具有独立的兴趣。