Jun, 2024
随机线性赌博机中的近似推断贝叶斯赌博算法
Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits
Ziyi Huang, Henry Lam, Haofeng Zhang
TL;DR提出了一个通用的理论框架来分析具体推断存在时的随机线性赌博带中的贝叶斯赌博算法,得到了 Linear Thompson Sampling 和 Linear Bayesian Upper Confidence Bound 在近似推断时保持原有遗憾上界但需要更大的常数项的结论,引入一种新的定义来展示 Linear Bayesian Upper Confidence Bound 改进了 Linear Thompson Sampling 的遗憾速率,从而与极小的理论最优速率相匹配,这是首次在具有有界近似推断误差的随机线性赌博带设置中给出的遗憾界。