Oct, 2023

最优探索与汤普森抽样同等难度

TL;DR该论文提出了一种利用采样和argmax oracle来实现指数收敛率的算法,以解决纯探索线性赌博问题,并证明了该算法在实践中与现有的渐近最优方法相当。