May, 2022

突破sqrt(T)壁垒:随机情境线性老虎机具有无关实例的对数遗憾

TL;DR本文提出了一种名为LR-SCB的低后悔随机情境赌博算法,可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔,并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。