Apr, 2024

广义线性背景臂机情境下的有限适应度最优遗憾

TL;DR我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数 kappa 的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB,使用 Ω(log (log T)) 批次,遗憾的规模为 Φ(O (√T)). 此外,我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次,并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。