Oct, 2019

带有双重竞技和抽取的阈值赌博机问题

TL;DR本文提出了一种名为 Rank-Search 算法的解决 Thresholding Bandit Problem with Dueling Choices(TBP-DC)的方法,该方法通过交替排序和二分查找来处理此问题,并证明了其理论保证,同时还提供了实验结果来证明其优越性。