Dec, 2019

使用单峰 Thompson 采样解决 Bernoulli 一阶臂赌博问题

TL;DR本研究介绍了随机Rank-One赌博机,在证明了该算法的对数后悔率的同时,通过将Rank-One赌博机作为单峰赌博机的一个特例进行分析,提出了一种新的Unimodal Thompson Sampling算法,并证明了其频率后悔率的渐近最优界,通过模拟实验和结果对比,证明了我们方法相对于现有技术的显著改进。